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Resume 



Cette recherche avalt pour but de comparer deux formes d'un 
Instrument de classement en fran'rals langue seconde. au niveau post- 
secondaire: un test conventlonnel et un test Informatlse. On precise d'abord 
ce qu'on doit attendre d'un test de classement comme mesure de la maltrise 
generale et on expose les principes du testing adaptatif qui ont servi a 
construire le test informatise. Ensuite, on explique comment les deux formes 
ont ete mises au point et on decrit leurs proprietes psychometriques. Enfm, 
on etablit une comparaison theorique et experimentale entre ces deux types 
de tests. II ressort que le test informatisee s'avere plus court parce que 
mieux cible et qu'il ne suscite pas de reaction negative de la part Hes 
etudiants. 



Abstract 

The purpose of this research was to compare two difTerents forms 
of a placement test in French as a second language, at the post-secondary 
level: a conventional test and a computerized test. First, expectations 
regarding a placement test as a measure of general proficiciency are 
discussed and principles of adaptive testing which have used to design the 
computerized test arc presented. Then, the development of the two forms is 
explained and their psychometric properties are described. Finally, a 
theoretical and experimental comparison is made between the two forms. It 
appears that the computerized test Is more accurate because of its focus and 
it does not give rise to any negative reactions from the students. 
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Introduction 

Au debut des annees *80, presque tous les intervenants dans 
le monde de Teducatlon iinaginalent, certains avec enthousiasme, 
d*autres avec apprehension, la place qu'occuperait Tordinateur dans 
la salle de classe a la fin de la decennle. Dans le cadre d*une vaste 
enquete menee dans divers depaitements de langues modemes 
d*universites et de colleges americains, ily a maintenant plus de dix 
ans. Olsen (1980) indiquait que pas plus de 10% d*entre eux avaient 
recours a Tordlnateur. On pourrait penser qu*auJourd*hui la situa- 
tion est radicalement dlflferente. Or, force est de constater que la 
proportion n'a guere change (Labelle 1986, Ng et Olivier 1987) et 
qu'en ce qui conceme Tenseignement de la langue seconde\ on est 
encore loin du Jour ou la machine se substituera au professeur de 
langue ou s'integrera simplement a Tenvironnement pedagogique 
comme le suggerait Amarel (1983). Les applications qu*on 
entrevoyait dans la classe de langue (Trush etTrush 1984, Holmes 
et Kidd 1982) sont encore rinitlative de praticiens marginaux 
oeuvrant dans des etablissements plus for'unes. AiUeurs, les 
applications pedagogiques (A.P.O.) se boment le plus souvent a des 
utilisations relativement simples des systemes de traitement de texte 
(Freeman 1988). 

Technologic encore trop rudimentaire? Financement inade- 
quat? Didacticiels peu Interessants? Mefiance generale? On peut 
invoquer plusieurs raisons sans toutefois pouvoir exclure defini- 
tivement Tintegration future de Tordlnateur a la classe de langue. La 



* Commc notrc recherche sest dcroulce dans le contcxte de rcnselgncmcnt du 
franpals au Canada, nous parlcrons dans la suite de Texposc de langue 
•seconde- (F.L.S.). 11 est evident que plusieurs de nos rcmarques el de nos 
conclusions s'appliquent tout autant a la situation de renseiftnemcnt du fran^als 
comme langue ctningcre. 
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popularite des systemes de traitement de texte est d'ailleurs le 
symptome d'un malaise de la didactique des langues face a remploi 
de rordinateur. Comme Tindique Raschio (1986), il faut tout d'abord 
que la profession exprlme explicitement ses attentes quant a la 
nature des didacticiels qu'on souhaiteralt voir dans les classes de 
langue. A cet effet, Clark (1988) dresse une liste de priorites pour les 
prochalnes annees. 

Comme speciallste en evaluation de la langue seconde, Clark 
fait figurer au nombre de ces priorites, la mlse au point de proce- 
dures de testing faisant appel a Tordinateur. Dans un article public 
quelques annees plus tot (Clark 1983), il signalait d'ailleurs que 
Texploitatlon de Tordinateur consUtuait, avec revaluation directe et 
authentique, une des voies d'avenir dans le domaine du testing en 
langue seccnde, II ne fait pas de doute que les traditionnels tests 
^papier-cayon* demeureront, mais I'ordinateur peut presenter une 
alternative interessante dans certains cas, Ainsi que le font remar- 
quer Higgins et Johns (1984:97): 

It is unlikely that the computer will, for the foreseeable 
future, replace paper and pencil as the direct medium for 
the student to use In mass test, (...) For the individual 
student the computer Is, of course, an Ideal medium for 
self- testing, providing diagnostic information that may be 
rough-and-ready or fairly sophisticated. 

On peut Imaginer certains des avantages d une administra- 
tion Informatisee par rapport a une administration plus tradition- 
nelle: confldentialite du test, correction automatlque et immediate, 
individualisation de la procedure, administration a un seul sujet... 
Mais il faut se demander si ces avantages sont bien reels dans le cas 
d'un test de langue, s'ils ne sont pas obnublles par des contraintes 
trop nombreuses ou trop serieuses. D*ou la question fondamentale 
a laquelle la presente recherche tentera de repondre: est-ll possible 
d'utillser de fa^on avantageuse le mlcro-ordinateur pour revaluation 
de la langue seconde? A priori nous sommes tentes de repondre 
affirmativement bien qu'une telle reponse contlenne une large part 
d'incertitude et d'hesJtatlon. Encore faut-il preclser a quelles fins le 
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test sera utilise et dans quelles conditions. II faut se demander si 
Temploi d'une technologie ne se fait pas au prlx de concessions 
quant a la pertinence de rinstinment ou n'a pas d'impllcations 
indesirables au plan psychometrlque. 

Dans le contexte actuel des recherches dans ce domalne, tout 
est a falre pour qui veut observer les avantages et Inconvenlents 
d un test informatise en frangals langue seconde. Comme 11 n*exlstalt 
pas, au moment ou nous avons entame le present projet, de test 
standardise offrant a la fois une version «papier-crayon» et une 
version informatlsee et pouvant etre utilise aupres de notre popu- 
lation cible, 11 a fallu developper un instrument de mesure. C'est 
pourquoi, le present document adopte une organisation tripartite, 
qui respecte la demarche que nous avons suivie au cours de la 
recherche: 

— Un aspect theorlque definlssant les objectlfs et Torganl- 
sation du test. 

— Un compte rendu du processus d'elaboratlon des deux 
versions du test. 

— Une comparalson entre les administrations des deux 
versions du test. 

L'aspect theorlque sera couvert par les deux premiers 
chapitres. Dans le premier, on situera notre recherche dans le cadre 
de la problematlque actuelle de revaluation de la langue seconde. On 
en vlendra alors a preciser de quel type de test 11 s'agit, compte tenu 
des usages antlcipes et de la population vlsee. Le second chapitre 
traitera des modeles psychometrlques qui sous-tendent Telaboratlon 
d*un test adaptatlf. Nous Justlfierons alors nos options theorlques en 
ce qui conceme la version informatlsee. 

On trouvera dans les troisieme et quatrleme chapitres le 
compte rendu de Telaboratlon du test depuis la version pre- 
experlmentale Jusqu*aux versions finales, «papier-crayon» et 
informatlsee. II s*agira de retracer les etapes, longues mals 
necessalres, de la mise en place des outils permettant Texperl- 
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mentation finale. Nous discuterons des caracteristiques psycho- 
metriques des instruments et de la programmation de la 
version sur ordinateur. 

L^s deux demiers chapitres correspondront a la troisieme 
partie de notre demarche. Ces chapitres representent en quelque 
sorte le but ultlme de la recherche. II s'agira de comparer Tad- 
ministration de la version informatisee par rapport a celle de la 
version traditionnelle aux plans psychometrlque, psychologique et 
admlnistratlf. Dans le cinquieme chapitre, nous comparerons les 
deiax versions du point de vue theorique. Dans le sixieme chapitre, 
nous considererons plutot des donnees experimentales. 

C'est ainsi que la perspective adoptee place la presente 
recherche au confluent de trois disciplines principales: la didactique 
des langues, la technologie educaUve et la docimologle. Toutefois. 
c*est plus particulierement a la premiere, la didactique des langues, 
que nous esperons apporter une contribution. En d'autres termes, 
nous comptons mettre au service de la didactique des langues, des 
innovations dans les domaines de la technologie educative et de la 
docimologie. 



® 

L*EVALUATION DE LA MAITRISE 
EN LANGUE SECONDS 

1.1 Les debats actuels 

On ne s'etonnera pas que les developpements relatifs a 
revaluation de la langue seconde suivent de pres revolution des 
approches et des methodologies. II est d'allleurs souhaitable qu'il en 
soit ainsi puisqu'il est essentiel que les pratiques evaluatives 
saccordent avec les objectifs pedagogiques. Neanmoins, rien 
n'indique a priori que revaluation doive etre a la remorque des 
autres domalnes de la didactique des langues. Pas plus, pour 
reprendre la metaphore de Roe (1981), que le testing ne doit se 
comporter comme le «coucou dans le nid» c'est-a-dire deloger les 
preoccupations fondamentales de la salle de classe en imposant ses 
propres criteres. On doit se rejouir que plusleurs des debats que 
connait presentement le domaine de revaluation trouvent leur 
source dans les grandes controverses qui animent la didactique, 
Cependant, il est evident que certaines questions ont pris, sous 
rangle de revaluation, une importance et une direction originales, 
Elaborer un test implique qu*on prenne position par rapport a ces 
debats. Cest pourquoi, dans les pages qui suivent, nous allons faire 
le point sur les courants actuels dans revaluation de la langue 
seconde. 



1.1.1 La realisation des tdches langagieres 

Comme le souhaitaient Chastain (1977) ou Fishman et 
Cooper (1978)» les prlncipes de renseignement dit «communicatif» 
n*ont pas tarde a s'imposer au niveau de revaluation. Dans cette 
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perspective, Johnson (1979) insiste sur la necessite de reorder des 
interactions nature lies tant dans les activltes d'enseignement que 
dans les activltes d'evaluation. II degage ainsi trois princlpes 
fondamentaux: 

— Les activites doivent impliquer la realisation de taches. 

— Tout echange suppose la transmission d'information. 

— Uetudiant^ intenient dans la selection des activltes. 

Le premier prlncipe etablissalt d'une fagon incontestable la 
superiorite du testing direct qui vise a reprodulre une situation 
authentlque, par rapport au testing indirect qui sert davantage 
d'indlcation (Clark 1975). Jones (1985:3) decrit ainsi revaluation 
directe de la performance: Its purpose is usucdly to assess the ability 
of an examinee in relation to some kind ojjob-related task. ITie 
overaR criterion is the succesful completion of a task in which the use 
of language is essential A titre d*exemple de test axe sur la realisa- 
tion de taches, mentionnons Tepreuve orale que doivent subir les 
assistants d'enseignement venus de Tetranger pour etudier a 
rUniversite de Callfomie (UCLA) (Bailey 1985, Hinofotis et aL 1981) 
ou les tests mis au point sous la supervision du English Language 
Testing Service (ELTS) conformement aux exigences et aux contenus 
de programmes d'etudes particuliers (Carroll 1985, Ingram 1990). Au 
Canada, certains tests de frangais langue seconde, congus dans le 
cadre de legislations linguistiques, vlsent a evaluer la capacite a 
communiquer dans la langue seconde en milieu de travail et 
s'inscrivent dans ce courant (Gareau 1981, Monfils 1982). On note 
egalement une tendance a evaluer a partir de taches communica- 
tives, dans le milieu scolaire (Girard etai 1984, Lussier-Charles et 
Danan 1983, Jasmin-Demers 1983, Lapkin 1985). 

Dans la perspective du testing direct, 11 devient important 
d'integrer la realisation de taches aux tests de langue tout en 



Dans cc document, nous parlcrons d'«ctudlant». dc «sujct». dc «profcsscur»... Lc 
mascuUn est utilise sans dlscrlmlnaUon. dans lc but d'allcger le textc et de 
respecter la norme du fran^als. 
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gardant a I'esprlt que des etudiants pourront utiliser des moyens 
dlfferents pour accomplir des taches slmilaires (DesBrlsay 1981, 
Lantoff et Frawley 1988). Les activites d'evaluatlon ressemblent 
de plus en plus aux activites de classe lesquelles se modelent 
sur des situations susceptibles d'etre vecues par Tetudiant. Ainsi 
que Texplique Potts (1985) il s'etablit, dans le cadre d'une 
approche communicative basee sur les taches, une dialectique 
enseignement/evaluation. 

Par ailleurs, dans une evaluation directe, la validite du 
construit est la seule exigence psychometrique qui tienne. 
Comparant les tests communicatifs aux tests classiques Harrison 
(1983a: 80) ecrit: Good communicative tests (like other tests) are 
straightforward tasks for the student to do, not Machiavellian sorting 
systems. Dans la meme veine, il en arrive a mettre en doute le fait 
que le testing puisse pretendre a Texactitude et a Tobjectivite. De 
fait, il est certain que la validite de ce type de test ne peut pas etre 
definle par les indices psychometriques classiques (Low 1985). 

Outre les problemes psychometriques inherents aux tests 
bases sur la realisation de taches specifiques, Genesee (1982,1984) 
signale trois problemes auxquels sont confrontes les utilisateurs. 

— Comment s'assurer, dans la pratique, que la situation de 
test atteindra le degre d'authenticite souhaite? 

— Peut-on generaliser revaluation a d'autres situations 
auxquelles Tetudiant pourrait faire face? 

— Quels crlteres adopter lors de la definition des niveaux de 
performance requis? 

Par ailleurs, il faut signaler que TelaboraUon de tests 
specifiques dans le cadre d'une organisation ou les intervenants sont 
appeles a exercer une grande varlete de taches peut devenlr un 
probleme Insurmontable (Ricciardi 1981, Wesche 1987). Shohamy 
et Reves (1985) font remarquer qu'il faut viser l authenticite mais 
que les contraintes qu'lmplique cette orientation Just If lent certains 
compromis. 
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Cette recherche de rauthenticlte a travers la realisation de 
taches vraisemblables et susceptibles de se produire n'est pas 
une absolue necessite lors d'une evaluation formai've dans laquelle 
on cherche a diagnostlquer des problemes particuliers ou certains 
acquis. EUe devient une exigence fondamentale lors d'une eva- 
luation sommative dans laquelle «seul compte le resultat» 
(Mothe 1985:60) 

1.1.2 ^integration des elements 

Tragant Thistorique de la notion d'evaluatlon de la langue 
seconde. Splosky (1976) distingue trois periodes principales: 

— La periode pre-linguistique: ce type d'evaluation cadrait 
avec une approche qui mettalt Taccent sur un appren- 
tissage cognitlf et sur Tanalyse contrastive. 

— La periode psychometrique-structurale: issue des prin- 
cipes de la linguistique structurale et des recherches 
psychometriques, ce mouvement privilegiait la notion 
d'unite discrete. 

— La periode sociolinguistique-integrative: dans la lancee de 
Tapproche communicative, cette tendance s'oriente vers 
revaluation de la maitrlse de la langue, en situation. 

Une des caracteristiques de la demiere periode est le fait 
qu'on rejette le postulat voulant que la competence se mesure en 
faisant la somme des elements lingulstiques acquis (Groot 
1975). On esUme que Tutilisation effective de la langue 
suppose la capacite de produire ou de comprendre les elements 
lingulstiques en interrelation les uns avec les autres dans un 
contexte parti culler. 

Bien que promoteur d une vision fondee sur la multipliclte 
des facettes de la performance linguistique, Carroll (1965) reconnait 
le premier la valeur des tests integratifs pour mesurer les inter- 
actions entre les facettes. Quelques annees plus tard, Carroll (1982) 
en viendra a considerer le test Integratif non seulement comme un 
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moyen de ne plus isoler les points de langue mais aussl comme le 
moyen de txansgresser les distinctions entre les quatre savoir-faire 
(Leblanc 1983); la globalite de la performance se trouve ainsi 
preservee. 

Dans un ordre d'esprit tout a fait different, on verra dans les 
tests integratifs, Toccasion de mesurer Tessentiel de la competence 
du sujet. Oiler (1978:46) decrit cette habilete langagiere fonda- 
mentale qu'il nomme «grammaire de Texpectative* comme a device 
that generates and confirms hypotheses. Oiler (1972) ajoute que la 
tgrammaire de Texpectative* ne s'evalue pas necessairement a Taide 
de tests directs. En d*autres termes, un test integratlf n'est pas 
forcementcommunicaHf (Savignon 1983:chap6, Spolsky 1985). En 
effet, des mesures Indirectes telles que la dictee, traditionnelle (Oiler 
et Streifl 1975. Cziko 1982) ou avec brouillage (Gradman et Splolsky 
1975), sont des indications flables du degre d'acquisition de la 
capacite de generer et de confirmer des hypotheses. Oiler (1973) 
demontre que le test de closure constitue egalement une mesvre 
integrative, indirecte mais efficace. A Tappui de la position 
defendue par Oiler, Palmer (1983) distingue entre un controle 
«compartimente» (par elements dlscrets) et un controle «integre»; 
il conclut en la superiority d'un programme qui developpe le 
controle integre. 

II est certain que de nombreux procedes discursifs, des 
relations grammaticales inter-phrastiques, des references 
textuelles ou situaUonelles ne peuvent s'evaluer sans le recours 
a un test integratif. Cazabon (1984) slgnale meme que le test a 
elements dlscrets tend a flger Tusage alors que le test 
integratif. dote de contexte, accorde une place a la variation 
linguistlque. 

Cette distinction entre test integratlf et test a elements 
dlscrets ne fait toutefols pas Tunanimlte. Ingram (1978) ne trouve 
pas de difference significative entre les correlations de tests Inte- 
gratlfs et celles de tests a elements dlscrets. Farhady (1983d) arrive 
a des observations semblables de sorte qu'll conteste Texistence de 
la distinction d'un point de vue statistique. 



10 



® 



1.1.3 Uhypothese du trait unitaire 

L 1 .3. 1 Les rnodeles Jactoriels 

Briere (1969) rapporte quau cours d'un congres tenu cn 
1968, Spolsky ct Upshur slgnalalent tous deux la possibilite de 
mesurer un factcur sous-Jacent dans le cadre d'une theorie fondee 
sur la communlcaUon. Dans cette optique, conununlquer feralt 
Inteivenlr une habllete langag' Ve fondamentale que partagent les 
locuteurs et sur laquelle s'appuient les manlfestaUons linguistiques 
plus speclfiques comme Ic mode (ecrlt ou parle), le registre, les fonc- 
tions... Par allleurs, dans le cadre d'une approch*' basee sur la 
realisation de taches. Carroll (1980) etablit des correlaUons entre 
differents tests de performance et observe la presence d'un facteur 
general qui rcndralt compte de 58% de la variance. 

Pour Oiler, ce facteur general est en fait la «grammalre de . 
Texpectative* que tentent de mesurer les tests integratifs. 

Within the context of expectancy grammar as models of 
underlying competence, a valid language test can be 
defined as one that activates the expectancy grammar that 
the learner has internalized. The extent to which the 
learner's grammar is able to synthesize and analyse 
meaningful sequences of elements of language Is an 
indication of his proficiency or competence in the language. 
(Oiler 1978:52) 

Dans cette perspective. Oiler (1981) en vienc a penser que la 
valeur dun test de performance general tiendrait en grande partle a 
la maniere dont Tlnstrument mesure cette competence sous-Jacente. 

La question du facteur general devient une preoccupaUon 
centrale avec la parution de deux ouvrages importants (Oiler 1979, 
Oiler et Perkins 1980) ou Oiler defend Thypothese du trait unitaire. 
Oiler evoque d'allleurs la possibilite que ce tx*ait unitaire soit associe 
au facteur «g» qui a suscite, U y a quelques annees, de vlves contro- 
verses dans le domalnc de la psychologic. On parle alors d'un 
facteur general qui rcndrait compte de 65% de la variance entre des 
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mesures aussi diverses que le Test of English as a Foreign Language 
CrOEFU. le test du Center of English as a Second Language de 
rUniversite d'lllinois (CELT) ou Tentrevue du Foreign Service Insatute 
(FBI) (Oiler et Hinofotis 1980). UtUisant une procedure d'analyse 
factorlelle slmilaire a celle de Oiler pour comparer 22 mesures 
differentes, Scholz et al (1980) arrivent a des resultats du 
meme ordre, 

L'hypothese du trait unitaire est cependant contestee. Carroll 
(1983, 1987) rappelle que le facteur general est souvent un artefact 
de la methode d'analyse. II soumet les donnees de Scholz etaLk une 
analyse factorielle differente. Plutot que de recourir a une procedure 
de recherche des composantes principales, 11 utilise une procedure 
de decomposition en facteurs. Sans infimier Thypothese du trait 
unitaire. il reduit Timportance du premier facteur et degage un 
deuxieme et un troisieme facteur, respectivement le mode ecrit et le 
mode oral. Farhady (1983b) remet en question la procedure de Oiler 
sur le plan methodologique en soutenant qu'il faut non seulement 
uUliser la decomposition en facteurs, mais qu'il faut aussi effectuer 
la rotaUon des facteurs. En procedant ainsi, il conclut que Thypo- 
these du facteur unitaire devient beaucoup moins plausible. 

A rinstar de Carroll et Farhady, Woods (1983) met en doute 
la pertinence de la procedure de recherche des composantes 
principales en soulignant qu'elle tend a favoriser Temergence d'un 
facteur principal. Par centre, la decomposition en facteurs a une 
valeur plutot confirmatoire en ce qu'elle suppose que Tutilisateur 
foumisse un modele a verifier. De plus, elle mene souvent a des 
resultats difficiles a interpreter. Vollmer (1981) rappelle aussi. fort 
justement, que les donnees de base sont toujours des scores 
obtenus a un test et que rien n'indique que les conclusions puissent 
s'appliquer a I'usage reel de la langue a des fins communicatives. II 
ne faut d'ailleurs pas s*etonner de la persistence d un facteur general 
puisque tout test implique une composante verbale plus ou moins 
importante (StreifT 1983). Plus encore, beaucoup de tests qui 
component une composante verbale mesurent un facteur commun 
qu'on a souvent associe a Hntelligence (Jensen I980:chap 5) et qui, 
de ce fait, a peu a voir avec la competence en langue seconde. Les 
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critiques d'ordre methodologique vont Jusqu'a mettxe en cause le 
bien-fonde de Tanalyse factorielle. En Tabsence de procedure statisti- 
que appropriee, Vollmer (1983) refuse d'admettre Thypothese du trait 
unitaire. II ajoute que meme lorsqu'on Ta observe, ce facteur 
demeure un concept inoperant puisqu'il s*agit d*une abstraction 
qu'on ne peut definir. 

A la suite des nombreuses interrogations soulevees par Tidee 
d'un facteur general. Oiler en vient a proposer que ce facteur general 
puisse lui-meme etre compose de plusieurs habiletes. Toutefois, s'il 
tempere la theorie du trait unitaire. Oiler (1983) n*en maintient pas 
moins le principe. Cette redefinition corrobore les vues de Upshur et 
Homburg (1983) pour qui le resultat d un test a plusieurs parties, se 
compose de Tapport d*un facteur unique et de facteurs specifiques 
pour chaque sous-test. 

Dans une recherche plus recente, Davidson (1988) estime 
que et les conclusions de Oiler etaient exactes, II ajoute cependant 
que le modele theorlque ne doit pas necessairement etre valide par 
une analyse factorielle dont on reconnait maintenant les insufTi- 
sances. II introduit une distinction entre, d*une part, la notion de 
«facteur» (ou de ^dimension*), une creation statistique, et d'autre 
part, la notion de «facette». un concept theorique. Ainsi, le fait qu'on 
isole un facteur general dans les tests de langue, n'empeche pas 
qu'on puisse reconnaitre une multiplicite de facettes. Comme 
Hulstijn (1985) il reconnait les limites des recherches empiriques en 
indiquant que les modeles theoriques demandent a etre valides par 
d'autres moyens que Tanalyse factorielle. 



1.1,3.2. Les modeles theoriques 

Les recherches de Bachman et Palmer temolgnent d une 
reflection pour mettre en place un modele theorique acceptable et 
operationnel, Leurs premieres etudes menees en utilisant une 
analyse factorielle reconnaissaient Texistence d un facteur general 
mais aussi rimpoitancc de facteurs specifiques: Texpression orale 
par rapport a la lecture (Bachman et Palmer 1981) ou i facteur 
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grarnmatlcal/pragmatJque par rapport a un facteur sociolin- 
gulstique (Bachman et Palmer 1982), lis ont par la suite 
construit un modelc theorique reposant sur Tidee que tout test 
de langue mesure un facteur general et divers facteurs speci- 
fiques relies a la situation de communication ou au test lui-meme 
(Bachman et Palmer 1984). 

En rafilnant le modele, Bachman (1990) propose une com- 
petence langagiere composee de deux traits: 

— une competence organlsatlonnelle. elle-meme divisible 
en une competence grammaticale et une competence 
discursive; on estime que la competence orga- 
nisationnelle contribue a 30% du resultat d'un test 
de langue. 

— une competence pragmatique. elle-meme divisible en une 
competence illocutionnaire et une competence socio- 
llnguistique; le poids relatif de la competence pragma- 
tique serait de 25%. Par ailleurs, le resultat d'un 
test manifeste aussi la presence de diverses habiletes 
langagieres parmi lesquelles figurent les strategies 
qu'utilise le sujet; ces habiletes representent environ 
30% du resultat. Enfln tout resultat comprend des effets 
rehes au test lui-meme: il s'agit d'eflet de melhode et 
d'effets aleatoires. 

Ce modele theorique n'est pas sans rappeler le modele 
desormais classique propose par Canale et Swain (1980). Ce 
modele postuie dans sa version finale una competence com- 
municative elle-meme formee de quatre competences plus speci- 
fiques: 

— la competence grammaticale, 

— la competence sociollnguistlque, 

— la competence de discours, 

— la competence strateglque. 
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L'lmportance accordee a chacune des composantes de la 
competence communicative varie selon les activites pedagogiques 
proposees (Canale 1983) ou selon les fomies d'evaluation mises 
en oeuvre (Canale 1981a). Le modele de Canale et Swain demeure 
un outil d'analyse et de developpement precleux; plus qu*a des 
donnees statlstlques, sa valldlte tient au fait qu'll reflete les 
contributions de la lingulstique, de la soclolingulstlque et de la 
psychoUnguistlque de meme que les prioiites actuelles dans 
Tenseignement des langues. 

Courchene et de Bagherra (1981) fomiulent deux objec- 
tions majeures face au modele theorlque de Canale et Swain. 
D*une part, ils s'lnterrogent sur le statut de la competence 
strateglque partlcullerement dans une perspective evaluative. De 
fait, il vaut peut-etre mieux s'inspirer du modele de Bachman et 
Palmer et ranger les strategies du sujet paraii les habiletes. 
D*autre part, Courchene et de Bagherra signalent que le modele 
semble negliger les interrelations qui llent les diverses com- 
petences. La remarque est d'autant plus pertinente qu*on ne peut 
ignorer les conclusions des analyses factorielles. Si on veut 
maintenir la divisibilite de la competence langagiere, on doit alors 
admettre que les composantes de cette competence sclent fortement 
correlees. Accepter Tidee d'un tel reseau d'lnterconnections 
entre les composantes, c*est reconnaitre la diversite deroutante des 
Interactions langagieres et la complexity indeniable de Tacqul- 
sitlon d'une langue. Falsant le point dans le debat. et tentant de 
reconciller Tapproche factorlelle et Tapproche theorlque, Carroll 
(1983:94,103) ecrlt: 

The general proficiency factor reflects overall degree of 
advancement In dlficrent language skills - as a function of 
the way the language Is taught, the attention and 
cfibrt the learner devotes to the study of the language, and 
possibly (or probably) the rate at which the learner Is able 
to absorb and master what Is being taught. (...) Such 
evidence as Is available suggests that specialized verbal 
skills arc learned, and conrelations among these skills 
tend to index the extent to which they tend to be learned 
together. 
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L 1 .4 Le concept de maitrise 

Au cours des demieres annees. on a vu se developper aux 
Etats-Unis. un mouvement autour de la notion de maitrise^. Le 
mouvement a pris d'autant plus d'ampleur qu'il a Tappul du 
puissant American Council for Teaching Foreign Languages (ACTFU, 
Les principes de base de ce mouvement (Omaggio 1983a) soiit 
fortement inspires par le testing. Le concept de maitrise se presente 
dans une certaine mesure comme la synthese des trois debats que 
nous venons de decrire. 

Certes, le concept privllegie le testing direct. A mesure que se 
developpe la maitrise, les tests doivent devenir de plus en plus 
integratifs. A cet egard, Omaggio (1983b) recommande de contextua- 
liser les tests de langue qu'utilisent les enseignants dans les classes 
de langue. Toutefois, on elargit la notion de tache pour inclure des 
taches plus linguisUques que communicatives. Les opposants de la 
notion de maitrise ne manquent pas d'y voir une fa^on de reintegrer 
revaluation par elements discrets (Savignon 1985, Bachman et 
Savignon 1986). Par ailleurs. face au probleme de generalisation que 
pose la rccdisation de taches specifiques, la popularity de la notion 
de maitrise temoigne d'un desir de depasser la situation a partir de 
laquelle s'etablit revaluation directe. Lowe (1980) ne manque pas de 
souligner que la maitrise implique la capacite de generaliser vers 
plusieurs situations. En d'autres termes, la performance devient un 
indicateur de la maitrise. 

Rivera (1982) s'interroge sur cette notion un peu floue qui ne 
correspond ni a la competence, ni a la performance. Parle-t-on de la 
connaissance du code ou de Tusage approprie de ce code? Ingram 
(1985:223) foumit un element de reponse: 

One can disUnguish the underlying general proficiency a 
learner has in a particular macrosklll from the learner s 



^ A cicfaut <lc tcrme plus saUsfalsant nous parlons dc «maitrjsc». pour nous refcrcr 
au sens qu'a pris Ic tcnmc proficiencij dans Ic cadre dc cc mouvcrncnl. En dehors 
dc cclui-cl. la notion sc confond parfols avec la noUon de perforniance. 
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ability to cany out an absolutely specified task In a spe- 
cified sltuaUon. (...) General proficiency would seem to 
entail the ability to use commonly occurlng features (e.g. 
phonology, syntax, lexis, discourse, functions etc.) and 
would seem to underlie the learner's register flexibility or 
his ability to cope with new situations and to select within 
his language repertoire to modulate his language according 
to sltuaUonal need. 

Ainsl, il semble que la maitnse solt sous-jacente a toute 
utilisation de la lemgue dans une situation de communication. 
Toutefols. elle se distingue du facteur unitaire de Oiler qui se situait 
nettement au niveau de la competence. Situation problematlque 
puisque, comme le souligne Vollmer {1981). la notion de maitrise se 
situant entre les notions de competence et de perfomiance, elle 
devient de ce fait non-obseivable et, partant, peut-etre inutile. 

Lowe (1985) rappelle que la notion de maitrise est issue des 
travaux sur revaluation de ia langue seconde, menes par Ylnter- 
Agency Language Roundtable (ILF), De fait, on vise une interde- 
pendance de Tenselgnement et de revaluation: We test what we 
teacK wc also teach what we test (Magnan 1985:143), Plutot que de 
deflnir la maitrise, Lowe en donne trols caracteristiques. mettant 
ainsl en evidence le caractere emplrique de la notion: 

— plutot qu'un systeme a elements dlscrets, elle est globale; 

— elle impllque plusleurs facteurs Impllcltes; 

— elle depasse le simple rendement. 

Blen que soulevant de serieux problemes theoriques, la 
notion de maitrise n'en est pas molns interessante. D'une pari:, elle 
se distingue de la competence que les lingulstes et les soclollngulstes 
deflnlssent comme un ensemble de regies. Or, non seulement la 
competence est difficile a mesurer mais on salt que la connaissance 
de regies ne saurait etre une fin en elle-meme. D'autre part, la 
maitrise se distingue de la performance qui, dans la perspective de 
Chomsky ( 1965:4), seveut la realisation concrete de TappUcatlon des 
regies dans une situation partlcullere. Uevaluatlon de la perfor- 
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mance risque done d'aboutlr a des resultats qui ne seront pas 
generalisables. La maitrise se definlt comme la capacite de mettre en 
oeuvre une competence en vue d'une performance. La maitrise 
apparait done comme le moyen terme. qui devient robjecUf a 
enseigner et Tobjet a evaluer. 

1.2 Un test de classement 
1.2.1 Hes objectifs du test 

Avec la popularity croissante des cours de langue dans les 
etabllssements post-secondalres. il devient essentlel de compter sur 
des tests de classement adequats. En effet. il est frequent que des 
etabllssements se retrouvent devant un grand nombre d'etudiants 
qui doivent etre classes tant bien que mal en quelques heures. et 
places dans le niveau qui convlent a chacun^. 

Or, quand on fait I'inventaire des tests disponibles au 
Canada pour le frangais comme langue seconde ou etrangere, on 
s'apergoit qu'il s'y trouve bien peu de tests de classement (Savard 
1969 et, pour les tests plus recents. Lapkin et aL 1984). L'annuaire 
du Euros Institute of Merited Measurement (Mitchell 1983) signale 
bien quelques tests de classement de niveau collegia!, encore 
disponibles aux Etats-Unis - dont la batterie elaboree par le 
Educational Testing Service (ETS), Pourtant, bien qu'on reconnaisse 
parmi les specialistes de la didactique des langues. I'importance de 
radequation entre I'instrument de classement et Tapproche pedago- 
gique (Dermer-Applebaum etTaborek 1986). on ne dispose que de 
tests desueLs qui ne tiennent pas compte des demiers develop- 
pements en didactique des langues. 

Face a la penurie de tests de classement en F.L.S.. beaucoup 
d'etablissements se voient contralnts d'utiliser des tests qui ne 
cadrent plus avec les pratiques pedagogiques qui ont cours. Ces 
tests font generalement partie des instruments mis au point au 



^ Nous traduisons Tcjcpression anftlaisc placement test par Ucsl dc classement*. Les 
tests de classement servent a former des groupes homoftcnes et non pas a opener 
une forme dc selection parmI un groupe d ctudlants. 
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cours de la perlode psychometxique-linguistique ou meme pre- 
linguistique. Le test Laval (Gendron et oL 1971) et le test de la 
Commission des ecoles catholiques de Montreal (Douesnard et oL 
1972) par exemple, s'utilisent encore. Ces tests se concentrent sur 
une seule des quatre composantes de la competence communicative 
telle que decrite par Canale et Swain a savoir la competence 
linguistique. Par contre, on trouve pour Tinstant, peu de tests qui 
mesurent de fagon satisfaisante la maitrise, c'est-a-dire la capacite 
d'utiliser la langue en situation, bien que les bases theoriques de tels 
tests soient assez clairement etablies. 

Diverses solutions au probleme de classement ont ete 
proposees: courtes entrevues Ulyin 1970), recoursaTauto-evaluation 
(Painchaud et Leblanc 1984, Leblanc 1985), classement d*apres 
le dossier scolaire, ou meme suppression de tout processus de 
classement. Toutefois, il s'agit, dans plusieurs cas, de solutions 
imparfaites ou ad hoc, a defaut d*un mode d*evaluation plus 
convenable. Par «convenable», on entend d*abord un test qui soit 
valide c*est-a-dire qui soit coherent avec le type d'enseignement 
qui prevaut habituellement, puis un test qui soit fiable afin 
d*eviter les changements de groupe trop nombreux et. fina- 
lement, un test qui soit commode de sorte qu*on puise classer 
rapidement, economiquement et simplement un grand nombre 
d*eleves. De plus, il y a fort a parier que dans les milieux de 
Teducatlon, Texigence de commodite a preseance sur celles de 
validite et de fiabilite. 

II faut aussi tenir compte de la divei-slte des programmes 
offerts par les etablissements et de la mobilite de la population 
etudiante. Construire un test implique alors la recherche de la 
•mesure commune* pour reprendre Texpression de Clark (1980) 
duquel, du reste. nous nous inspirerons dans notre demarche. II ne 
fait done aucun doute que la creation d un test en F.L.S. repond a 
un besoin dans le domaine de Tenseignement aux jeunes adultes. 
Cela est d'autant plus vrai que ceux-cl, contralrement a leurs cadets, 
ont connu. quand on les accueille, des apprentissages fort dlfferents 
les uns des autres, ce qui rend problematique Testlmatlon de leur 
niveau de competence. 
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Par alUeurs. relaboration d un test qui fasse appel aux 
ressources de lamicro-lnfonnatlque presente un intcret certain dans 
le domalne de rcnselgnement des langues secondes. A Theure ou les 
laboratolres de mlcro-ordlnateurs sont en vole de remplacer les 
laboratoires de langues dcvenus apparenunent desuets, a Theure ou 
Tequlpement Informatlquc pourrait faire de plus en plus partle de la 
panoplle des services pedagogiques et ou chacun se demande si 
cette technologle est d'une quelconque utllite dans Tenselgnement 
de la langue. une application comme la notre semble la bienvenue. 
Elle pourrait completer la bibliotheque, encore bien limitee et de 
qualite tres inegale. d'ouUls pedagogiques qui exploitent les pos- 
sibilites des micro-ordinateurs. 

La population etudiante que nous visons partlculierement est 
prlncipalement constituee d'etudiants qui s'inscrivent dans des 
etablissements post-secondaires, a des cours de langue, soit pour 
satisfaire les exigences d un programme d'etudes. soit comme 
complement a leur formation personnelle ou professionnelle. II 
s'agit d'eleves qui sont sur le point de terminer leurs etudes 
secondaires ou qui sont deja engages dans d^^^s etudes de niveau 
collegia] ou untversitaire. '^outefois, on peut facilement imaginer 
qu'un tel test de classement puisse aussi senir pour Tensem- 
ble des eleves du niveau secondaire ou aupres de la population 
adulte en general. 

Cependant. la standardisation du test et la comparaison 
entre les deux versions du test ont ete menees aupres d'un echan- 
tillon relativement homogene. U s'agissalt d'etudiants inscrits dans 
des programmes intenslfs offerts pendant Tete. La grande majorite 
etaient des boursiers du Secretariat d'Etat. Chaque annee des 
miUiers de ces etudiants ont la chance, grace a une bourse pro- 
venaiit du Secretariat d'Etat. de vlvre six semaines d'immersion 
totale. en dehors de leur milieu habituel (Keating 1989). Les 
etablissements qui participent au programme de bourses doivent 
offrir une vingtaine d'heures de cours de langue par semaine. Ces 
cours vlsent le developpement de la performance plutot que la 
connaissance du code linguistique et mettcnt nettemcnt Taccent sur 
les habiletes orales. Plusieurs activites para-scolaires telles que 
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des excursions* des spectacles et des ateliers se greffent au pro- 
gramme. Durant ces activltes. on insiste sur Tusage exclusif de la 
langue cible. 

Les recipiendaires des bourses pour Tapprentissage du F.L.S. 
representent une population relatlvement homogene du point de vue 
sociologique. La tres grande majorite sont ages de 17 a 22 ans. lis 
sont tous inscrits comme etudiants a temps plein dans des etablis- 
sements de niveau secondaire ou post-secondaire canadiens ou 
ranglals est la langue d*enseignement. Ces boursiers choisissent de 
consacrer une partie de la periode estivale a Tapprentlssage du 
frangais. Lorsque nous visitions un etablissement, nous avions 
Thabitude d*experimenter le test aupres d*un echantillon repre- 
sentatif ou aupres de Tensemble des etudiants. II n'y avait done 
aucune raison de suspecter que TechanUllon puisse etre fausse par 
la sur-representatlon d*un domaine de specialite par exemple 
(Alderson et Urquhart 1983 1985, Farhady 1983a) ou par des 
variations dans la langue de depart (Ramirez 1984). Par contre, on 
trouve dans la population etudiee de grandes variations quant au 
niveau de performance dans la langue cible. Uetape du classement 
s'avere done determinante pour le succes de tels programmes. 

1.2.2 Specificite du test de classement 

Qu*attend-on d*un test de classement? Essentiellement qu*il 
departage, au debut d*un programme, une masse d*etudiants en 
differents groupes afin que tous puissent beneflcier d'un ensei- 
gnement approprie. Cette vocation du test de classement le distingue 
a p'usieurs egards des autres types de test. 

1.2.2. 1 La validite predictive 

Foumlr un programme approprie, c'est faire en sorte que 
Tapprenant solt integre a un groupe ou il pourra progresser le plus 
possible et ce, tout en suivant le rythme general du groupe. Comme 
le test de classement cherche a determiner si un programme 
conviendra ou non, on ne peut Juger de la valeur du classement 
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qu*apres coup, en utilisant des donnees qui s*accumulent pendant 
le programme. II peut s'agir du jugement de Tapprenant ou de son 
professeur apres quelques heures d'enseignement; on peut con- 
siderer. des tests perlodiques administres en classe; on peut 
comparer le classement avec la note finale au cours. Dans tous les 
cas. le test de classement sett a predire le comportement ou le degre 
de succes de Tapprenant. Le fait que le test de classement precede 
Tenseignement implique qu'on ne peut pas Tintegrer aisement au 
programme de cours selon les prlncipes d'une evaluation naturelle 
telle que decrlte par Canale (1984, 1985, 1988). Par consequent, on 
doit obbgatoirement prendre en consideration la validite predictive 
du test de classement. 

Dans cette perspective, plusieurs types de renselgnements 
pc mettent de predire si le programme convlendra. Beaucoup 
d'etudiants s'attendent a etre classes en fonction de leur nombre 
d*anneesd*etude dans la langue seconde. Lanote obtenue au dernier 
cours de langue peut egalement servir de base au classement. 
Currall et Kirk ( 1 986) rapportent le cas d*un programme ou 1* element 
qui predisait le mieux les chances de succes a un cours de langue 
etait les resultats scolaires obtenus dans les autres cours. On peut 
choisir de regrouper les apprenants en fonction de leurs besoins ou 
des interets qu*ils ont exprimes au debut du cours. On peut meme 
imaglner que le classement s*etablisse a partir de donnees person- 
nelles comme Tage, la personnalite, la motivation... 

On peut s*appuyer sur les aptitudes et les strategies 
d'apprenUssage. Par exemple, la division de la formaUon llnguistique 
de la fonction publique du Canada (Monfils 1982) tient compte des 
resultats de tests d'aptitude pour Tapprentissage dune langue 
seco nde comme le fameux Modem Language Apatude Test (MLAV, 
mis au poini par Carroll et Sapon (1959). Harris (1970) montre que 
la simple mesure de la memoire a court terme peut etre une donnee 
suffisante a des fins de classement Chapelle et Roberts (1986) es- 
timent que le succes a un cours de langue peut etre relie a certalnes 
caracterlstiques cogniUves. II est done possible de detemiiner les 
strategies et les styles d*apprentissage et de faire en sorte qu*on 
reunisse, par exemple, les apprenants qui priv:legient une approche 



22 



® 



analytique dans un groupe different de ceux qui sont plus a TaJse 
avec une approche globale. On pourrait aussi determiner la predomi- 
nance de certaines strategies d'apprentlssage (O'MaUey et clL 1985) 
et en tenir compte lors du classement. 

Le crltere, ou Tensemble de crlteres, qui sert a etablir le 
classement peut done varler. Dans le cadre de la theorle de la 
decision, HQls (1971:714) precise: Thus the extent to which the test 
permit useful placement is a Joint function of how well the test 
measures the relevant underlying trait and how markedly the validity 
of the trait differs for different treatments. II est permis de croire que 
la maftrise porte une haute valeur predictive. Tyler (1974) Indique 
que ce n'est qu'a partir du milieu des annees clnquante que le 
regroupenicnt en fonction du niveau d'habilete est devenu une 
preoccupation generale dans le domaine de I'education; 11 met 
d'ailleurs en doute la superlorlte de ce mode de classement, 

Enfln, si on en est venu a identifier le test de classement a 
une mesure du niveau d'habilete, il n'en reste pas moins que cette 
evaluation peut prendre diverses formes. Pour un programme de 
comprehension auditive au niveau debutant, une mesure de la 
discrimination auditive peut etre hautement predictive alors que 
pour un programme comportant des objectifs structuraux, une 
mesure de la competence grammaticale constituera une meilleure 
indicaUondes resultats anticipes. Swain etol. (1974) font remarquer 
que dans certaines circonstances, la traduction et I'lmitation peuvent 
etre des activites qui refletent bien la competence en langue seconde. 
Par contre, en vue de I'atteinte d'objectifs communlcatifs, 11 faudrait 
songer a une evaluation de la maitrlse generale. 



1 .2.2.2 Un test de maitrise 

L'lmportance de la valldite predictive du test de classement 
confere a celui-cl un statut particulier dans les typologies qu'on 
connait habituellement. De fait. Us n'appartiennent a aucune des 
categories degagees par Clark (1972, 1979) lis se distinguent des 
•tests pronostiques* car ils evaluent plus souvent le niveau d'habilete 
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que rapUtude a apprendre et ce, blen qu*lls nous informent sur ce 
que pourra accomplir Televe. Ce ne sont pas necessairement des 
•tests de rendement» ou, selon la termlnologie de Spolsky (1968) des 
•tests relies a Tenseignement*. En effet, ils ne se referent pas 
explicitement a un apprentissage qui a deja eu lieu. Par centre, on 
ne peut pas toujours les considerer comme des tests de maitrise 
etant donne qu*ils cherchent souvent a identifier des forces et des 
faiblesses par rapport a unc sequence de niveaux plutot qu'a 
determiner si Tetudiant a franchi ou non un seuil de passage pre- 
etabli. Symptome de cette ambivalence du test de classement, on 
trouve au mot vedette placement test dans le glossaire qui 
accompagne Fouvrage de Finocchlaro et Sako (1983:305), la defini- 
tion suivante: Achievement or proficiency tests used to place 
students in a program or in a certain year or level of a program in a 
particular school 

De fait, Tattrlbut «test de classement» se refere davantage a 
Tusage dun test plutot qu*a la nature de ce qu*on cherche a evaluer. 
Le regroupement des etudiants peut s'effectuer autant a Taide de 
tests de rendement, que de tests de maitrise que, comme nous 
Tavons signale. de tests pronostiques. II semble qu'on puisse 
concevoir differents types de tests de classement selon qu'on les 
considere comme des tests de rendement ou des tests de maitrise. 
Dans Toptique des tests de rendement, le test de classement cherche 
a delerminer si Tetudiant maitrise suffisamment les elements 
enseignes a un certain niveau pour pouvoir etre place au niveau 
sulvant; le test a alors une fonction diagnostique qui peut meme 
permettre d'etablir certains objectifs devant s'integrer au futur 
programme de Televe. Par contre, le test de classement peut 
s'apparenter davantage a un test de maitrise lorsqu'il pretend non 
pas classer Televe en fonction d un contenu de cours, mais en 
fonction d une maitrise generale qui peut etre absente dans le cas 
des plus debutants ou quasi-parfaite dans le cas des plus avances. 
Cette demiere approche est egalement celle qu'adopte Harrison 
(1983b:27): 

The language content of placement tests cannot be spe- 
cified in detail because it must be suitable for -> wide range 
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of students with dlficrcnt learning backgrounds. The range 
of the students' experience Is one of level as well as content, 
and since the intenUon is to separate them out Into class 
groups, it is useful to set the tests, where possible, on an 
Incline of dlfilculty'. 

II s*agit done en realite, d un test de maitrise qui, au lieu de 
ne presenter qu'un seul niveau de passage en conUent autant que 
le nombre de niveaux desires: debutants, faux-debutants... tics 
avances. 

Dans le cadre tie la presente recherche, nous avons prefere 
elaborer un test de maitrise et ce, pour deux ralsons princlpales. 
Premlerement, 11 cn resulte un instrument qui dolt etre valide par 
rapport a une theorie plutot que par rapport a un contenu de cours 
speclfique. Petersen et CarUer (1975) ne manquent pas de faire 
remarquer que la validlte du construit et la validite concurrente, blen 
que plus difllcUes a obtenir que la validlte de contenu, permettent 
d'en aiTlver a dc meUleurs tests. De cette fa^on, le test peut servlr a 
un plus grand nombre d'insUtuUons qui partagent une approche et 
un type de population etudlante, sans necessairement offrlr des 
programmes de cours tout a fait identlques. Deuxlemement, le test 
s'acconJe mieux avec les pratiques pedagogiques qui semblent 
donner maintenant moins de place a la competence grammaticale. 



1.2.2.3 La marge d'erreur 

Le degre de precision est directement relie a la variance de 
renreur acceptable laquelle depend des besoins et des contraintes 
que connaissent les usagers d'un test. Alnsi. un etablissement qui, 
a cause du nombre restreint d'eleves ou du peu de ressources dls- 
ponibles. ne peut offrlr plus de trois niveaux (debutant, intermediaire 
et avance). n'aura sans doute pas a recourir a un test de classement 
tres precis - a la condition qu'on puisse tralter les cas frontleres 
adequatement. II est done souhaitable qu'on puisse disposer d'un 
instrument qu'on pounrait eventuellement ajuster selon des besoins 
ou des contraintes spcciilques et qu'on puisse suggerer quelques 
solutions pour le traltement des cas frontleres. 
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Lorsqu'on Juge de la pertinence d'un test de classement, 11 
faut tenir compte de la decision a laquelle doit mener le test. A cet 
egard. 11 est necessaire de distlnguer deux types de test de maitiise: 
le test de certificacion et le test de niveau. Le test de certification vise 
a detennlner si un etudiant a atteint le niveau requis pour Tadmls- 
slon dans un programme, Texecutlon de certalnes taches profes- 
sionnelles, le passage d'un cours a un autre... II y a done un niveau 
de passage unique, un seuil autour duquel se concentre le processus 
d'evaluatlon. Plus le niveau de dlflficulte du test s'eloigne de ce seuil, 
moins le test est pertinent. Par ailleurs, le test de certification mene 
le plus souvent a des decisions importantes et susceptibles d*avoir 
un impact serieux sur Tavenir professionnel ou academique d'un 
candidat. II est done important que la marge d'eireur du test, du 
moins autour du niveau de passage, soit tres etroite. 

Contralrement au test de certification, le test de classement 
est un test de niveau car 11 n'a pas comme but de determiner si Tetu- 
diant a reussi mals 11 sert plutot a former des groupes homogenes. 
D'une certaine faQon, il s*agit d'un test de certification dont le 
nombre de seuils s'etablit en fonction du nombre de groupes qu'on 
souhaite distlnguer. Comme pour le test de certification, les 
variations qui n'amenent pas de passage d un niveau a un autre ne 
sont pas pertinentes. Parce qu'il est generalement superflu de 
preciser dans quelle mesure la performance s*eloif^ne de ce qu'on 
pourrait considerer comme un niveau de passage, on peut tolerer 
des intervalles de confiance relativement larges. Pex ailleurs, 11 faut 
noter qu'un mauvais classement attribuable a la marge d'erreur du 
test est rarement dramatique et irremediable. De fait, il est genera- 
lement possible de rectifier les erreurs du test en changeant des 
etudiants de groupe, en dormant des legons de rattrapage, en 
developp.ant une attitude positive chez Tetudiant... En d'autres 
termes, etant donne le type de decision a prendre, on peut accepter 
une marge d*erreur relativement grande. 



1 .2.2.4 Uaspect pratique 

Le fait qu*on puisse tolerer des intervalles de confiance 
relativement larges affecte la fiabilite du test. On salt egalement que 
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le degre de fiablllte recherche a des UnpUcaUons praUques Impor- 
tantes. Or. 11 faut garder a I'esprlt le contexte habltuel du test de 
classement: une masse d'eleves a trier rapldement. Dans ces 
conditions, un test qui est.trop long ou trop difficile a administrer et 
a corrlger risque de rester sur les tablettes. aussi precis soit-il. Voila 
pourquoi. I'uUllsaUon de I'ordinateur presente tant d'interet: on peut 
esperer reconcilier fiabilite et commodite. 

Par ailleurs. les contralntes d'ordre pratique (commodite et 
economle) exercent aussi une influence sur la vaJldite du test. Par 
exemple. 11 est indenlable que rexpression orale foumlt de precleux 
renseignements sur le niveau general d'un etudiant. Dans le cadre 
du mouvement axe sur la maitrlse. I'expression orale devient meme 
la base de revaluation de la maitrlse (Clifford 1980. 1981}. Malgre sa 
lourdeur administrative. I'entrevue du FSI (Jones 1978) a vlte gagne 
de la pop- larite comme mesure de I'expresslon orale. II n'en reste 
pas mo' IS que. dans les milieux d'enseignement. on a souvent des 
hesit'.aons a utlllser I'entrevue a des fins de classement. Clark 
(IS /5) reconnait que I'entrevue directe est la methode la plus efficace 
pour evaluer Texp^ession orale. mals il souligne les problemes 
pratiques qu'elle pose et suggere qu'on mette au point des methodes 
plus indlrectes. Cartler (1980) decrit un test qui selon lui mesurerait 
des variables concomitantes a la maitrlse, au plan de rexpression 
orale. On a egalement propose que rentrevue orale soit administree 
par des examinateurs qui n'auralent pas reQu de formation par- 
ticullere (Lowe et Clifford 1980. Mattran 1977). 

La somme des moyens ou de temps requise. soit pour I'ad- 
minlstraUon soit pour la correcUon d'un test, est un facteur 
incontoumable et extremement important. Cest ainsi que certaines 
acUvites a travers lesquelles on peut evaluer la maitrlse devront etre 
mises de cote en depit de I'apport qu'elles representent en termes de 
validite de construit et de contenu. Bref. la valeur pratique d'un test 
de classement dolt rester un soucl majeur. 

1.2.2.5 Une mesure indirecte 

Le prlnclpe de revaluation directe est de reproduirc une 
situation authentique c'est-a-dire une reconstrucUon vralsemblable 



id 



Uevaluation de la maitrise en langue seconde 



27 



et caracterlstique d'une situation que pourrait effectlvement 
rencontrer Tapprenant. On cherche ainsl a determiner dans quelle 
mesure le candldat saura faire face a des situations reelles du meme 
type. Sans rejeter Tidee du test direct, les promoteurs de la notion de 
maitrise ont remis en cause la speciflclte des taches a reallser. De 
fait. I'administration d'un test de classement direct pose deux 
problemes particuliers. 

Tout d'abord, U faut rappeler que le test direct suppose qu'on 
ait etabll une liste de taches qui correspondent aux besoins 
communicatifs des apprenants. Or, U faut blen admettre que ces 
besoins ne sont pas toujours clairement Identifies. Cela est 
d'autant plus vrai dans un contexte scolaire ou les etudlants 
s'lnscrivent a des cours de langue avec des Interets aussl vagues et 
aussl varies que Tenrlchlssement personnel, ramelioration des 
perspectives d'emplol, Tenvle de soclallser ou meme la perspective 
d'enselgner la langue. Par ailleurs, 11 est courant que les besoins 
communicatifs auxquels on peut eventuellement rattacher des 
taches speciflques ne sclent Justement determines qu'une fols le 
niveau general connu c*est-a-dlre une fols les epreuves de classe- 
ment terminees. 

L'autre probleme que souleve revaluation dlrecte dans 
la perspective du classement est relle a Taspect predlctlf que 
nous avons deja touche. Le test de classement dolt foumlr des 
indications de la fagon dont pourra fonctlonner un apprenant 
dans la salle de classe selon le niveau qu'on lul aura asslgne. 
Dans ce cas, etablir des taches speciflques qui solent repre- 
sentatives de la performance qu'on veut mesurer equlvaut a 
dresser la liste des tkch^.s que Tapprenant est susceptible de 
rencontrer dans la salle de classe. Dans les mellleurs cas, les 
situations de salle de classe se modeleront sur des situations 
authentlques. Toutefois, quol qu'on fasse dans une salle de 
classe, 11 ne faut pas negllger le caractere fonclerement 
artlflclel des activltes pedagoglques. Par consequent, on peut tendre 
vers une evaluation plus dlrecte mais la nature meme du test de 
classement, toume vers la salle de classe, ImpUque une 
evaluation Indlrecte. 
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1.2.2.6 Une evaluation normee 

Pour reprendre la teraiinologie de Cziko (1981), le test «edume- 
trlque* c'est-a-dire a interpretation criteriee, foumit plus d*infonnation 
qu'une evaluation «psychometrlque» c'est-a-dlre a interprepretation 
normaUve; CartJer (1968) montre que I'evaluaUon crlterlee, plutot que 
de comparer les apprenants les uns par rapport aux autres, les situe 
relativement a des objectifs clairement definis, a la realisation de 
taches linguistiques precises. En ce sens, une evaluation crlteriee est 
beaucoup plus difficile a realiser (Brown 1989). On sait que le test de 
classement est generalement un test de maltrise plus qu un test de 
rendement; de plus, le test de classement tend a etre une mesure 
plutot indlrecte. Dans ces conditions, on peut tmaginer qu'il soit 
souvent difficile de concevoir un test de classement criterie. 

Davies (1975) fait remarquer que le plus souvent un test sert 
a assigner un rang aux etudiants. Le test de classement ne fait pas 
exception a la regie. Ce qu'on attend de lui, c'est qu'il situe les 
etudiants par rapport a une dimension donnee. Les ecarts entre les 
resultats sent iarement importants car il s*agit de remplir un certain 
nombre de groupes-classes. Ainsi, dans la plupart des cas, une mesure 
ordinale s*avere sufllsante. Dans ce contexte, pourquoi faudrait-il que 
le test de classement s -a criterie? Hormis les situations ou la 
population etudiante s*ecarte de ce qu'on trouve normalement ou les 
cas frontieres litigieux, un test normatif peut etre tout a fait satisfai- 
sant. Apres tout, le but de Toperation de classement n*est-il pas de 
trier les eleves? 

Bien sur, il seiait souhaitable d*en arrtver a une normalisaUon 
afin de permettre des comparaisons entre les programmes et entre les 
etudiants (a Tinterieur dun meme etablissement ou entre les etablisse- 
ments). Cette recherche de la «commune mesure», selon Texpression 
de Clark (1980), pourrait eventuellement mettre fin a la balkanisation 
des pratiques evaluatives souvent observee dans les institutions post- 
secondaires (Whitny 1980, Young 1980). II s'aglt d'un souhait tout a 
fait legitime qui depasse toutefois les buts du test de classement. II 
faut ajouter que les techniques de standardisaUon que nous uUlisons 
pour le present test pourraient bien etre adaptees en vue de la niise au 
point d*un instrument criterie. 
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1.2. 2 J Uimidimensionalite 

Meme dans le simple cas d'une mesure ordinale, 11 faut 
considerer avec beaucoup de clrconspecUon un score qui se presente 
comme le total de resultats obtenus dans des epreuves de nature 
differente. C*est d'ailleurs une des ralsons pour laquelle le debat sur 
le trait unitaire a pris une importance aussi grande dans le domalne 
du testing. 

Dans les cas ou la composition des scores ne pemiet 
pas de situer les sujets sur une dimension commune, il faut 
dresser un profll de Tetudiant. On dlra que Tetudiant A qui 
a obtenu des scores eleves en discrimination auditive mals 
faibles en litter ature et en orthographe, a un profU different 
de Tetudiant B, qui a failli en discrimination auditive, mals 
bien reussi dans les deux autres epreuves. Rares sont les 
etablissements qui pourraient tlrer profit d*un tel test qui 
mesurerait plusieurs habiletes de fagon a refleter les forces et 
les faiblesses de chaque eleve. En effet, pour constituer des 
groupes-classes homogenes, il est plus convenable de trier les 
etudiants en fonction des resultats a un nombre restreint de 
sous-tests evaluant des habiletes particulieres, representatives de la 
maitrise et interreliees. II est possible que le test ne rende pas 
compte de la totalite de la competence langagiere. De fait, meme si 
la performance communicative n*est pas vraiment unidimension- 
nelle, la fonction meme du test de classement nous force a 
prendre une decision "unldimensionnelle*. En effet, les tests de 
classement vlsent a detemiiner a quel niveau d*une echelle unique 
appartient Teieve. 

La plupart des etabbssements n'offrent pas de cours 
specialises portant sur les aspects speclflques de la communication 
en langue seconde. Beaucoup de ccux qui le font ne peuvent se 
permettre d'admlnistrer toute une batterle de tests. Ainsi, comme la 
decision est le plus souvent imidlmensionelle, 11 devlent important 
de pouvoir evaluer les etudiants en fonction de leur maitrise generale 
dans la langue seconde. 
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1.2.3 La nature du test 

Sans etre totalement integratif, le test ne repose pas sur un 
decoupage systematlque en unites discretes. De fait, Tintentlon est 
de mesurer la maitrise telle qu'elle se deflnit dans le courant qui a 
porte cette noUon au premier plan. Le test n'est pas un test de 
competence dans la mesure ou la seule connaissance du code ne 
nous Interesse guere; U n'est pas non plus un test de performance 
car U dolt permettre certalnes generalisaUons sur ce que pourralt 
etre la performance en de mulUples situations. Nous disons done 
qu'U s'agit d un test de maitrise. Cette maitrise Implique la cormals- 
sance du code mais aussl la mlse en oeuvre de strategies compen- 
satolres quand la connaissance devlent deficlente. Cette maitrise se 
revele a travers une performance particuliere mais permet aussl le 
passage d'une situation de communication a une autre. 

Les contralntes pratiques, c'est-a-dire la necessite d'avoir un 
mode d'administration et un mode de correction commodes et 
economlques ont joue un role determinant dans la planificatlon du 
test. De meme, on a du tenir compte de Tobjectlf principal du projet, 
a savoir une comparalson entre une version «papier-crayon» et une 
version informatisee. Les prlnclpaux compromls que nous avons du 
faire sont les sulvants: 

- UtUisaUon exclusive de questions a cholx multiples: 
Outre ses qualites psychometriques incontestables, ce 
tjrpe de question est remarquablement efflcace en ternie 
de temps d'administration et de correcUon; de plus, c'est 
pour rinstant, le format le plus approprle pour les 
applications utUisant Tordinateur. 

- Absence d*actlvlte de production: Malgre une validite 
inegalable, la correction des epreuves de production est 
longue, coutcuse et souvent peu flable; par allleurs, la 
production Implique un aspect imprevlsible dont la 
machine s*accommode fort mal. 

- Un test indirect: La maitrise etant une entite abstralte, 
nous en recherchons plutot des indices; dans le cas 
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present* comme Tetudiant est face a une machine ou face 
a un questionnaire, la mesure de ces indices s*effectue 
dans une situation tout a fait artlficielle. 

- Un nombre de sous-tests lUnite: Afln de ne pas prolonger 
indument Tadministratlon du test tout en utilisant un 
nombre suffisant d*items comparables, le test ne com- 
prend que trois parties. 

- ^exclusion des habiletes oralcs: Au plan de Texpression* 
Tentrevue demeure le moyen le plus efficace mais aussi 
le moins pratique; au plan de la comprehension, Imtro- 
duction d une composante orale impliquait des compli- 
cations techniques que nous cherchions a eviter dans le 
cadre de la presente recherche"*. 

- Priorite aux habiletes receptives: Uaspect imprevislble de 
la production posait un probleme de taille dans cette 
recherche. Nous avons decide de nous concentrer sur les 
habiletes receptives. II faut toutefois rappeler que de 
nombreuses recherches recentes ont confirme Tinter- 
dependance des habiletes receptives et productives 
(Krashen 1981, 1983, Nagle et Sanders 1986, Faerch et 
Kasper 1986). Selon ces theories, la comprehension 
figure comme une condition prealable a la production, de 
sorte que la mesure de la comprehension devrait refleter 
les capacites d*expresslon. 

II est Clair que ces restrictions sont incompatibles avec les 
caracteristiques des tests dit «communicatifs» tels que decrits par 
Wesche (1981) ou Swain (1984a, 1984b). Neanmoins, le test que 
nous avons elabore pretend mesurer suflfisamment la maitrise en 
frangais langue seconde pour servir d*instrument de classement. Ce 
test est constitue de trois sous-tests. II nous semble que les sous- 
tests mesurent les deux aspects essentiels de la maitrise, du moins 
lorsqu*ll s*agit d'assigner un groupe-classe a un apprenant: 



* L'cvoluUon rapldc de nouvcUcs technologies pcnmcitant d'Jntcgrer des stgnaux audio- 
vlsucls (sur vidco-dtsque ou sous la fonDC de son numcrlse. par cxcmplc) ofTrc des 
posslbllltcs Interessanles quant a 1 evaluation de la comprehension auditive. 
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— la capacite de faire des predictions a partir d'une situa- 
tion (sous-test #2) ou d*un contexte (sous-test #3): 

— la capacite de reforaiuler une information de nature 
linguistlque (sous-test #1) ou pragmatlque (sous-test #2). 



L2.3.1 Test de lecture 

Etant donne que les items devront etre incorpores dans un 
test «papier-crayon» ou admlnlstres par ordinateur» il est difficile 
d'evaluer la comprehension auditive. Toutefois» il est possible de 
juger de la comprehension de Tecrit en presentant un texte dont on 
mesure le degre de comprehension au moyen de questions portant 
sur le contenu. On aura des questions sur les relations entre les 
elements tant au niveau de la phrase qu'au niveau du discours, sur 
des nuances stylistiques* sur le vocabulaire, sur les valeurs 
sociolinguistiques ou culturelles... II est evident que cette evaluation 
de la comprehension par la lecture ne tient pas compte de facteurs 
speclfiques a la comprehension auditive tels que les strategies 
d*ecoute» la capacite de discrimination, les differences de registre. 
etc.» mais elles permettent d*evaluer de fagon globale le niveau de 
comprehension. Jafarpur (1987) a effectue une analyse de la 
structure factorielle de tests construits avec cette technique de 
•contexte court*; il a decouvert que le facteur principal correspondait 
a une performance generale dans la langue cible, 

Voici un exemple d*item ou Ton demande a Tetudiant de 
choisir la reponse correcte: 

A partir de la semaine prochalnc» les citoyens ne pourront 
plus garcr Icur volturc dans la rue» pendant la null. Ce 
reglemcnt a pour but dc facilitcr le travail de deneigement 
au cours dc I'hivcr. 

A- II ncige dcpuis une semaine. 

B- Actuellement. les citoyens peuvent garer leur voiture 

dans la rue, la nuit. 
C- Le travail dc deneigement commenccra des la semaine 

prochainc. 

D- On peut garer sa voiture dans la rue, pendant le Jour. 
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La consigne est donnee en anglais afln que Tetudiant sache 
precisement ce qu*on attend de lui. On pourrait aisement traduire 
les directives de ce sous-test pour vlser des etudlants dont la langue 
matemelle ne serait pas Tanglals puisque les choix de reponse sont 
dans la langue cible. Cette demiere caracterlstique impllque aussi 
que certains problemes de comprehension pourront survenir dans 
la lecture des choix de reponse. Ceci offre plus de liberte dans la 
redaction des items et pemiet de mieux controler le niveau de 
dilTiculte. Enfin, il faut noter qu'on pourrait avoir recours a une 
variante de ce genre d'items ou Ton utiliserait un texte plus long sur 
lequel on poserait plusieurs questions dont le niveau de difficulte 
varierait. 



1.2.3.2 Choix de Venonce qui convient 

II est difficile dans le type de test que nous proposons. 
d*evaluer les productions spontanees ou les enonces produits 
dans un contexte donne. Malgre des developpements interessants 
dans le domaine de Tintelligence artificielle et de Tanalyse 
automatique du discours (pour une synthese de la question, voir 
Bonnet 1984), on est encore loin du jour ou la machine 
pourra jouer le role d-un locuteur sensible aux particularites 
d'une situation de communication. Newsham (1989) signale que 
meme dans le cadre d*une entrevue il est difficile de faire 
varier les parametres de la situation de communication pour 
verifier comment le sujet tient compte de ces parametres dans ses 
productions. Howard (1980) et Raffaldini (1988) indiquent qu'on 
peut evaluer la capacite de I'eleve a produire des enonces 
corrects et approprles en lui soumettant une serie d'enonces parmi 
lesquels il doit choisir celui qui correspond le mieux a la 
situation decrite. 

A tltre d*exemple» on peut citer Titem suivant sur lequel se 
modelent ceux de la deuxieme partie: 

You are in the train. Y:>u do not. know the passei\ger 
w}\o is siitii\g beside you and i.ou wonder if you may 
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smote. The person is a man, about 50 years old: he is 
reajding a magazine. To inquire, which question would 
you use? 

A' Tu vcux que Jc fume? 

B- Auriez-vous Textreme obligeance de me permettre de 
fumcr? 

C- Est-cc que cela vous derange si Je fume? 
D- 11 faut que Je fume. 

Dans cet exemple, on decrit la situation en utilisant la 
langue matemelle du sujet. Hormls I'usage d'images, qui risque- 
raient d'etre ambigues, on imagine mal comment il pourralt en etre 
autrement. Les items de cette section renseignent sur la capacite de 
Tetudiant de reperer un enonce qui soit a la fois correct et approprie 
dans une situation donnee. Avec ce sous-test, on fait done une place 
a la dimension socio-culturelle (Condon 1975) de meme qu'a la 
variation sociale (Duran 1984). On reconnait deux des trois criteres 
retenus par Morrow ( 1 982) pour revaluation de Texpression orale. En 
effet. Morrow distingue entre appropriacy, accuracy et Jluency, 
Notons que le dernier critere ne peut serv^, compte tenu du 
genre de test que nous developpons. Malgre certaines limites 
serieuses (Cazabon-Slze et Cazabon 1986). ce genre d'item 
qu'on ne retrouve generalement pas dans les tests standardises, 
permet done d'evaluer a la fois la competence grammaticale et la 
competence sociolinguistique. 

1.2.3.3 Test de phrases Icucunaires 

Depuis que Oiler (1979) a etabli la typologie des tests de 
closure et en a fait les louanges en pretendant qu'ils constituaient 
une mesure integrative propre a activer la «grammaire de Vexpecta- 
tive». une litterature abondante s*est developpee autour de cette 
question. Cole (1981) fait la synthese de plusieurs etudes qui ont 
confirme la validite concurrente des tests de closure: les coire- 
lations sont parUculierement remarquables avec les epreuves de 
grammmai'.e et de vocabulaire. Ces resultats ont ete par la suite 
' jrrobores par des recherches complementaires (Hinofotis 1980. 
Stansfield 1982. Hanania et Shikhani 1986). Certains (Lee 
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1985) parlent meme de validite du constxuit alors que d*autxes 
(FsLThady 1983c) s'interrogent sur ce que mesurent reellement les 
tests de closure. De fait, le test de closure a connu un tel succes 
qu*aujourd*hul 11 fait souvent office de test de classement 

Plusieurs modifications au test de closure traditionnel 
ont ete proposees. Certaines suggestions comme la technique de 
Clozentropy (Brown 1980), la technique de ClozeElide (Manning 
1985) ou le test-C (Klein-Bradley et Raatz 1984) se distlnguent par 
leur originalite. On a observe que Tefficacite du test de closure 
pouvalt etre amelioree en selectionnant les effacements plutot qu'en 
procedant de fagon aleatoire (OUer et Inal 1975, Bondaruk et at 
1975, Bachman 1982). On a aussi note que des formules ou Ton 
acceptait tout mot acceptable dans le contexte ou des versions 
adoptant le format des questions a choix multiple permettaient 
d'eviter les ecueils de la correction par le mot exact (Brown 1980). 
Des formules a choix multiples se sent averees tout aussi valables 
et beaucoup plus pratiques quand il s*agit de mesurer la maitrise 
generale (Jockens et Montens 1988, Jonz 1976). 

Toutefois, plusieurs recherches ont mis en doute la valeur 
integrative du test de closure et demontre que cette technique ne 
pemiettait que d*evaluer des facteurs de bas ordre (Alderson 1980, 
1981, Connors et Toker 1984, Porter 1983). Selon ces etudes, le 
contexte qu utilise effectivement le sujet pour completer le texte, ne 
depasse pas quelques mots de sorte que les indices discursifs jouent 
un role secondaire. Dans cette perspective, on peut done penser 
qu un simple exercice de phrase lacunaire fait appel a plusieurs 
strategies et de connalssances communes. L'exercice de phrases 
lacunaire ne peut se substituer totalement au test de closure, mals 
en ce qui a trait a la maitrise generale. il semble apporter une 
information du meme ordre. 

La plupart des tests standardises ont recours a ce type 
d'items. Beaucoup de manuels de testing, publics durant la periode 
«psychometrique-structurale», accordent une place preponderante 
aux phrases lacunalres (Lado 1961, Harris 1969. Valette 1977). Par 
rapport au test de closure, ce fomiat a Tavantage de preserver le 
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piincipe de Tlndependance des items, Uanalyse statistique du test 
s'en trouve done grandement facilitee. Par consequent, les items du 
troisieme sous-test ont la fomie suivante: 

En plus de vous falre voyager plus rapidement nous vous 

enverrons ou les autres compagnies ne font 

pas escale. 

A- meme C- rarement 

B- surtout heureusement 



1.2.3.4 Les niveaux de maUrise 

Nous tenterons de tenircompte de lamajorite des uUlisateurs 
d'un test de classement en etablissant sept niveaux differents: 

niveau 1 Debutants 
niveau 2 Faux debutants 
niveau 3 Intermediaires faibles 
niveau 4 Intermediaires moyens 
niveau 5 Intermediaires forts 
niveau 6 Avances 
niveau 7 Tres avances 

On notera que cette division suit de pres lechelle de niveaux 
etablie par V American Council on the Teaching of Foreign Languages 
(ACTFU Byrnes et Ciinale 1987) ou meme par le English Language 
Testmg Service (ELTS. Seaton 1983). De fait, la description des 
niveaux suit Tesprlt d*un projet de normalisation Internationale 
connu sous le nom de The Cojvjnon Yardstick (Educational Testing 
Servive 1978. Clark etCUfford 1988). Cesechellescomprennentneuf 
niveaux. En ce qui nous conceme, on peut fusionner les deux 
premiers niveaux etant donne le bagage que possedent habituel- 
lement les apprenants de la population visee; on peut egalement 
fusionner les deux demlers niveaux puisque. theorlquement. les 
etudiants du niveau le plus eleve n'ont plus besoln de cours de 
langue seconde. De plus, afin de nuancer TestimaUon du niveau, on 
pourra ajouter des categories mitoyennes: par exemple. on pourra 
classer un apprenant au niveau -Faux debute nt +». 



Les principes 

DU TESTING ADAPTATIF 



Avec le developpement technologique dans le domaine 
Informatique et la mise au point de techniques docimologiques 
toujours plus raffines, on voit apparaitre de plus en plus de 
tests qui utillsent Tordinateur. De fait, Tordinateur presente 
deux caracteristiques qui rendent son utilisation partlcu- 
lierement inv.eressante pour le testing. D'une part, il olTre la 
pcssibilite de branchements multiples: le loglciel peut done 
^prendre des decisions* au cours de radministration du test. D'autre 
part, sa capacite de traitement numerique penmet d'executer tres 
rapidement des calculs complexes dont on peut utiliser les 
resultats sur le champ. Le testing adaptatif^ apparait comme le 
moyen ideal d'exploiter a fond ces deux caracteristiques interes- 
santes de la machine. 



2.1 Caract6ristiqaes des tests adaptatifs 
2.1.1 Le concept de testing adaptatif 

Larson et Madsen (1985) font remarquer que lutilisation de 
Tordinateur pour revaluation en langue seconde peut s'lnspirer 
des didactlciels d*enseignement mais qu'elle est plutot appelee 
a s'en distinguer et a appliquer de plus en plus la notion de 
testing adaptatif. Cette notion se comprend aisement dans le cadre 



A dcfaut dc tcrmc frangais attcstc. nous nous raillons a unc tendance scion 
laqucUc Ic ncologlsmc UcsUng adaptatif* dcvTalt corrcspondrc a Tcqulvalcnt anglais 
cudaplive testing. 



d'un test de classement. En effet, de par sa nature, le test 
de classement impllque qu'on Fadnilnlstre a un groupe dont le 
niveau d'habilete varle considerablement. On doit retrouver 
dans le test de classement des quesUons qui s'adressent a chaque 
niveau. On accepte done que Fetudiant debutant soit confronte 
a des quesUons generalement beaucoup trop diflficiles et qu*inver- 
sement. Tetudlant tres avance trouve le test extremement facile. De 
fait, peu importe le niveau de Tetudiant, la plupart des quesUons 
d'un test de classement sent soit trop faciles soit drop difficUes. 
Outre les effets psychologlques qu'on peut imaglner (frustraUon. 
abandon. inattenUon...), cette situation affecte la quaJlte de la 
mesure. En effet, lorsque la probability de reussite ou d*echec a un 
item devient trop grande, cet item apporte peu d*infomiaUon. On 
comprend alors Tinteret d'un test au cours duquel Tapprenant serait 
soumis a des items adaptes a son niveau, c*est-a-dire ni trop 
difflciles, ni Urop faciles. Pour expliquer cette noUon de testing 
adaptatif. Wainer (1983) a recours a une analogic avec la course a 
obstacles: au cours de Tepreuve, on tente de placer des 
barrieres que le coureur a autant de chance de franchir que 
de faire tomber. Weiss et Kingsbury (1984:361) definissent ainsi le 
tesUng adaptatlf: Adapave testing is a process of test administration 
in which test items are selected for administration on the basis of the 
examinee's response to previously administered items, Comme le 
souligne Anastasi (1982:304), ce n est pas le nombre de quesUons 
qui importe, mais le niveau ou se deroule le test: The 
individual score is based, not on the number of items answered 
correctly but on the difficulty level and other psychometric 
characteristics of those items. II en resulte que dans ce test •sur 
mesure*. les Items adminlstres varlent necessairement d'un 
apprenant a Tautre. 

Dans le domaine de la didactique des langues, les 
recentes techniques d'entrevue pour revaluation de I'expression 
orale nous ont habitues a ce type d'epreuve que Texamlnateur 
mene en foncUon des hypotheses qu'll constrult quant au 
niveau reel du sujet (Wilds 1975). Dans le domaine de la psy- 
chologic, deja au debut du siecle, Blnet (1909) reconnaissait 
le prlnclpe du tesUng adaptatlf dans la mesure de rintel- 
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ligence. Le test se modelait selon les reponses foumles et 
comprenalt les etapes que distinguent Kreitzberg et al. (1978) 
dans le deroulement d un test adaptatif. Ceux-ci y reconnaissent 
quatre etapes: 

- Obtenlr une estimation Initiale du niveau d*habilete: II 
peut s*agir de la moyenne de la population, du resultat 
dune epreuve anterleure, d*une approximation quel- 
conque... Cette premiere estimation sert a amorcer la 
procedure. 

- Determiner un item approprie: On choisit parmi les 
items qui n*ont pas encore ete presentes celui qui 
tient le mleux compte de Testlmation du niveau du sujet. 
On affiche alors Titem a Tecran et on demande au suJet 
de repondre. 

— CoiTlger et reviser Tinformation: Des que le suJet a 
repondu, on enregistre la reponse et cette Information est 
utllisee pour recalculer le niveau d*habllete qui servira de 
base au choix du prochain item. 

— Arreter lorsque Testimatlon est assez precise: Si on 
Juge que restimatlon est assez fiable, on interrompt 
Tadmlnistration. Dans le cas contraire» on retoume a la 
deuxieme etape. 

Le deroulement peut se representer selon rorganigramme de 
la figure 2.1, 

Plus que les effecs psychologiques chez Tetudiant qui fait le 
test, c'est refficacite de lia procedure qui a surtout retenu 
rinteret de ceux qui s'y sont Lnteresses. Green (1983a), souligne 
rimportance de la notion d'information dans les procedures de 
testing adaptatlves les plus recentes. II s'agit essentiellement de 
maxlmiser cette information c'est-a-dire d'obtenir des donnees qui 
permettront d'arriver a une estimation qui soit le plus pres 
possible du niveau reel de Tetudiant et ce en uUlisant un nombre 
minimum d'items. 



40 



® 



nCURE 2. 1 
Schema du derotilement d'un test adaptatif 
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Toutefols, outre Tavantage du point de vue psychometrlque. 
Green {1983b) releve quelques autres avantages que peut presenter 
la presentation par ordinateur: 

— Comme aucun document ne circule (questionnaire, 
feuille de reponse ou grille de correction) et que les 
etudlants ont des tests dlfferents, on preserve la confl- 
dentlallte du test. 

— Pulsque Tetudiant repond au clavier, on evite les feullles 
de reponses parfols illisibles et la correction des reponses 
est Immediate. 

— Le test s'admlnistrant de fagon indivlduelle, Tetu- 
dlant peut le falre a son propre rythme. sans devoir 
subir les contralntes de temps de Tadministration en 
groupe. 
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- On evite la frustration et on stimule I'lnteret de I'etudlant 
qui repond a des questions correspondant a son niveau 
d'habllete. 

- La presentation par ordlnateur permet de creer de nou- 
veaux types d'ltems en exploitant les posslbilltes gra- 
phlques. le clavier, le son... 

Dans la demlere partie de cette recherche, nous conslde- 
rerons plus en detail les avantages et les inconvenlents que presente 
un test adaptatif en langue seconde par rapport aux tests tradl- 
Uonnels. Toutefois. avant d'y arrlver. 11 nous a fallu. elaborer un.tel 
test. Nous avons done cree ce qui constltue les deux composantes 
essentielles de tout test adaptatif: une procedure de selecUon des 
Items et une banque d'ltems. 



2.1.2 La procedure de selection des items 

Uetudlant a qui on adminlstre un test convenUonnel devra. 
a moins que sa fantaisle ne lui suggere un ordre different, repondre 
d'abord au premier item qui apparait dans le questionnaire {ou sur 
la bande) puis passer au second et ainsi de suite. Par contre. si le 
test est adminlstre avec un ordlnateur. U n'est pas necessalre que 
l-ordre Uneaire de presentation des items soit respecte. Le concepteur 
dun test informatise peut programmer diverses strategies de 
selection des items. 



2.1.2.1 Administration Uneaire 

Ce t>T)e de test Informatise ne peut pas etre considere 
comme un test adaptatif puisqu'U s'agit le plus souvent de la 
simple transposition a I'dcran d'un test convenUonnel. On 
presente les items selon un ordre pre-determlne en tenant compte 
des Umites Inherentes a ce mode de presentation et des possl- 
biUtes qu-U offre. Dans la typologie de Bunderson. Inouye et Olsen 
(1989). ce type de test correspond a la premiere generation 
des tests informatises. 
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2. 1 .2.2 Selection aleatoire 

Ce type de test decrit par Lord (1977b) s'appuie sur la theorie 
des tests aleatoirement paralleles (Lord et Novick 1968:chap 1 1). Le 
programine choisit au hasard parmi un ensemble d'items homo- 
genes, un nombre pre-determine d'items. Cette technique a ete 
utilisee par Emerson (1974) afm de generer des tests differents a 
chaque administration. Toutefois, bien qu'aucun sujet ne regoive le 
meme test, cette strategic de selection ne constitue pas verita- 
blement un test adaptatif. 

2. 1 .2.3 Branchernent enfonction da contenu 

La selection s'effectue en fonction de la nature des items 
presentes et non pas de la reponse du sujet. On peut ainsi limiter le 
nombre d'items se rapportant a un aspect specifique ou programmer 
Texclusion d'une classe d'items a la suite d'un item particulier. 



2. 1.2.4 Test d plusieurs etapes 

Dans sa forme la plus simple, le test a etapes (Betz et Weiss 
1974), comprend un tronc commun qu'on administre a tous les 
sujets. Selon le niveau d'habilete calcule, le programme choisit alors 
une sequence particuliere d'items. On peut reprocher a ce type de 
test que la fiabilite du resultat final depende beaucoup de la decision 
prise apres la premiere etape. Cleaiy et al. (1968) obsen^ent que la 
qualite de la mesure obtenue apres revaluation preliminaire varie 
selon la fagon dont les items ont ete selectionnes. Selon eux, on peut 
reduire le nombre d'erreurs de classement si on determine la 
sequence en revisant la categoric ou se trouve I'etudlant apres 
chaque item. 

2.1.2.5 Test Jlexilevel 

Congu par Lord (1971), d'abord pour les tests -papier- 
crayon*, ce type de selection se prete facilement a une admlnis- 
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traUon informatlsee. Les items sont ranges dans deux series: la serle 
de gauche comprend des items ordonnes du plus facile au plus 
difficile et dont le niveau de difficulte est superleur a la 
moyenne; dans Tordre inverse, on retrouve dans la serle de droite. 
des items dont le niveau de difficulte est inferieur a la moyenne 
(figure 2,2), On administre d'abord un item de depart de 
difficulte moyenne; si la reponse est exacte. on choisit le prochain 
item dans la serle de gauche, slnon on choisit dans la serle 
de droite. Comme le souligne Seguin (1976), le test JlexUevel s'avere 
surtout efficace lorsque la gamme des niveaux a I'interleur d'un 
groupe est tres etendue. 



FIGURE 2.2 
Deroulement d'un tc»t Jlexileoel 
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2. 1 .2.6 Test pyramided 

Larkin et Weiss (1974) designent ainsi ce type de selection a 
cause de la hierarchie dans laquelle prennent place les items. En 
effet. ceux-ci sont ordonnes dans une structure arborescente. Si le 
sujet foumit une reponse exacte 11 est dirlge vers I'item plus 
difficile; slnon on lui soumet I'item plus facile. En distinguant 
les sept niveaux que nous avons decrlts, la stru^^ture se presente 
comme la figure 3. On peut se demander si cette procedure utilise 
efficacement les items dlsponibles. Par allleurs. afin d'amellorer 
la fiablllte. on peut subtituer a chaque item qui occupe un 
noeud de Tarbre. un groupe d'items. Par exemple, la reussite 
de trois items d*un groupe de cinq dirlge le suJet vers le groupe 
d'items plus difficlles. 
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FIGURE 2.3 
Deroulement d'un test pyramidal 
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2. 1 .2-7 Test par stratification 

Le test stradaptive (Vale et Weiss 1975) consiste a diviser le 
continuum que represente Thabilete en un certeiin nombre de 
strates. A chacune, sont associes des items dont le niveau de 
dlfficulte correspond a celui de la strate. La structure des items d un 
test a sept strates se presente sous la fomie d une matrlce dont la 
longueur varie selon le nombre d'items disponibles (figure 4), II est 
toutefois possible qu'un item partlcuUerement efficace se retrouve 
dans plusieurs strates adjacentes. Si Tetudiant repond correctement. 
on lui soumet le prochain item de la strate de niveau superleur; 
sinon on lui presente celui de la strate de niveau inferleur. 



FIGURE 2.4 
Deroulement d*un test par stratification 
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2. 1 .2.8 Test par correspondance 

Lord (1970) indique qu'on peut determiner le niveau ou un 
item est le plus efficace, c*est-a-dire ou il foumit le maximum 
d'information. Ce niveau est calcule sur la meme echelle que le 
niveau de Tetudiant. La pre jedure consiste done a choisir, parml les 
items qui n*ont pas ete presentes, celui qui est le plus efficace 
compte tenu de Testimation du niveau de Tetudiant. A moins que le 
sujet ait Toccasion de deviner la reponse, il s'agira idealement d*un 
item pour lequel il y a autant de chances d'obtenir une reponse 
exacte qu'une reponse inexacte. 

La plupart des strategies de selection des items supposent un 
classement des items selon leur difficulte relative. Si Techantillon qui 
sert a la calibration est representatlf, il est possible d utiliser des 
indices de probabilite pour representer )a difficulte des items. Par 
ailleurs, si les quatre premiers types dc tests infomiatises peuvent 
etre corriges en comptant le nombre de reponses exactes, Testima- 
tion de Thabilete a un test pyramidal ou par stratification consiste 
a attribuer un niveau plutot qu*un score. Quant a la demiere 
strategic de selection des items, le test par correspondance, elle 
implique que la difficulte des items et Thabilete des sujets soient 
mesurees a Taide d une echelle commune. Cela pose ainsi un 
probleme considerable dans le cadre de la theorle classique (Lord et 
Novick 1968) particulierement lorsque le hasard intenient (avec 
des questions a choLx multiple) ou que les items ne discri- 
minent pas egalement. 

Par ailleurs, toute strategic de selection des items doit 
comprendre un critere qui permet d*interrompre la procedure. Dans 
le cadre de la theorie classique. le nombre d*items administres 
demeure le critere le plus commode. Le test est temiine des qu un 
nombre pre-determine d*items a ete presente (ou que tous les items 
ont ete presentes). Toutefois, la '^se au point de techniques de 
mesure reliees a la theorie du trait latent permet maintenant de 
considerer la somme d*lnfomiation recueillle au cours du test. Alnsi. 
quand on a accumule une certaine quantite d*information. on arrete 
le test. La theorie du trait latent dont nous verrons les fondements 
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dans la section suivante, ofTre egalement une solution au probleme 
que pose I'adoptlon d'une echelle commune entre la difficulte des 
items et Thabilete des sujets. 

2.1.3 Les banques d'items 

L'efficacite de la strategic de selection des items depend de la 
qualite des Items qui sent disponibles. Les items doivent etre 
relies au contenu qu'on cherche a mesurer, lis doivent servlr a 
departager la populaUon et on s'attend generalement a ce qu'ils 
couvrent une gamme sufTisamment large de niveaux d'habilete. Au 
cours de TadministraUon d'un test adaptatif, le programme aura 
acces aux items qui sont ranges et repertories dans une (ou 
plusieurs) banque(s). 

Millman et Arten (1984) definissent ainsi la notion de 
•banque d'items»: a relatively large collection of easily accessible 
test questions. Puisque la banque d'items permet d'obtenir un 
tres grand nombre de tests dlfferents, on comprend qu'elle soit une 
composante essentielle dans un systeme de tesUng adaptatlf. 
Toutefois les «banques d'items* ne sont pas nees avec le concept 
du tesUng adaptatif. II s'agissalt d'abord de reunir un 
ensemble d'items partageant certaines caracterlsUques quant a 
leur forme et a leur contenu et d'acceder a ces items selon 
les besoins {Choppin 1968). Outre ses applications dans le 
domaine du testing adaptatlf. la banque d'items se prete a une 
variete d'usages: 

- pour garder a Jour les renseignements relatlfs a Tutilisa- 
tion des items; 

- pour obtenir des versions paralleles ou equivalentes 
d'un test: 

- pour abreger ou allonger un test; 

- pour regrouper des Items portant sur un contenu par- 
ticulier; 

- pour tester a un niveau de difficulte speciflque. 
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Comme le fait remarquer Theunissen ( 1 987) , la mise sur pled 
d'une banque d'ltems est un element Important pour «optimiser» un 
test c'est-a-dire utUlser le minimum d'items pour obtenir le maxi- 
mum d'Jnformatlon dans un domalne particulier au{x) niveau(x) 
d*habllete pre-etabli(s). 

Selon le nombre d*items, le type de standardisation, rinfor- 
mation a emmagasiner et le systeme de gestlon, Telaboratlon 
de la banque d'items pourra falre appel a une technologie 
relativement simple (DesBrtsay 1988, Nitko et Hsu 1984) ou 
beaucoup plus complexe (Henning 1986, Wright et Bell 1984), 
Dans tous les cas, le systeme Impose une relative unlfomilte 
quant a la forme des items de sorte que beaucoup de banques se 
limitent, par exemple, a des questions a choix multiple. De 
plus, les items dotvent pouvoir etre traites isolement: ainsl, 
une serie de tests de closure est difficile a integrer dans une 
banque d'items. Enfln, il est essentiel que les items soient homo- 
genes du point de vue de leur contenu c*est-a-dire quils 
mesurent un domaine commun. Si on ne peut assurer cette 
comparabilite de contenu, il est possible de constituer plusieurs 
banques inter-reliees ou d'identifier des sous-ensembles de la 
banque par des mots cles. 

L'ensemble des items doit etre chapeaute par un systeme de 
gestion grace auquel Tusager pourra acceder a la banque pour 
effectuer les trois operations suivantes: 

- Retrouver: L'information contenue dans la banque 
doit etre rapidement disponible, en tout ou en 
partle, tant pour la construction d'un test que pour la 
consultation. 

- Coniger: On doit pouvoir corriger une erreur de frappe, 
modifier un distracteur, enreglstrer les resultats d une 
recalibratlon... 

- AJouter: La structure doit etre ouverte de fagon a per- 
mettre I'addltion de nouveaux items a la banque. 



48 



Les developpements de la micro-informatique rendent ces 
operations de plus en plus faciles. Plusieurs logiciels courants 
conQus pour la gestion de bases de dormees, peuvent effectuer ces 
fonctions (Henning 1986). 

Le nombre et le contenu des champs que contlent chaque 
fiche d'item peuvent varier selon les types de banques mais on devra 
necessairement y retxouver rinformation suivante: 

- Un code d'identlficaUon: il sert a* identifier Titem et, s'll y 
a lieu, la banque auquel il appartient de meme que le 
moment ou il a ete Insere. 

- La question: il s'agit du texte qu'on soumet (a I'ecran, sur 
papier, sur bande ou sur disque) et a partlr duquel le 
sujet doit repondre. 

- La reponse: on entre la/les reponse(s) correcte(s). 

- Des indices statistiques: si on utilise les indices classi- 
ques, on inscrit la probabilite de reponse correcte (ou le 
niveau de difficulte), la correlation biserlelle (ou point- 
biserielle) ou un indice de discrimination quelconque; si 
on utilise la theorle du trait latent, on inscrit les resultats 
de la calibraUon (indice de difficulte et s'il y a Ueu. 
indices de discrimination et de hasard). 

On pourra aussi ajouter, selon les besoins, des renseigne- 
ments complementaires: 

- Les mots cles: dans les cas ou la banque contient plu- 
sieurs sous-ensembles. 

- Les options de reponses: cette infoiroation doit suivre les 
questions a choix multiple. 

- Le texte complementalre: ce peut etre le passage sur 
lequel porte une question ou tout autre texte pertinent. 

- Les donnees sur Texperlmentation: on peut indiquer 
la/les date(s) de Texperlmentation de Titem et le nombre 
de sujets Impliques. 
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— L'adequation: ce peut etre un indice du degre d ade- 
quation de ritem en foncLion des autres items et du 
modele retenu. 

— Tout autre renseignement Juge important. 

Une banque peut regrouper un tres grand nombre d'items et 
de champs d'information. Cependant si la banque doit servlr au 
testing adaptatif, il est important de ne pas surcharger les fiches afin 
d'assurer des temps d'acces raisonnables et de limiter I'espace 
requis pour emmagasiner les donnees. Pour les memes raisons, il 
faut veiller a ne pas multiplier le nombre d'items. Un test adminlstre 
pair micro-ordinateur de faible puissance auquel on adjoindrait une 
banque d'au-dela de 300 items risquerait de foumir un rendement 
mediocre. Ces contraintes sont beaucoup moins serieuses iorsque la 
banque sert comme simple outil de reference ou pour produire des 
questionnaires de test. 

Quoique la gestion de vastes banques de donnees ne pose 
generalement pas de probleme technique, leur developpement est 
souvent difficile du fait qu'il devient impossible d'administrer 
tous les items a une meme population, dans des conditions stables. 
Si on estime la difficulte des items a partir de la probabilite de 
reponse correcte, la marge d'erreur de ces indices peut s'averer 
assez importante surtout si les echantillons de sujets ne sont pas 
compairables. Des techniques d*ancrage mises au point dans le cadre 
de la theorie du trait latent (Hennlng 1987:chap 9, Vale 1986) 
peraiettent maintenant, sous certalnes conditions, d'exprimer sur 
une meme echelle, la dlfliculte d'items experimentes avec des echan- 
tillons dilTerents. 



2.2 La theorie du trait latent 

Dans le contexte de revaluation de la langue seconde, on a 
souvent remis en question le bien-fonde de la theorie classique. 
Nous avons mentionne quelques insuffisances de la theorie classiqu e 
notamment en ce qui a trait a I'etablissement d*une echelle de 
difficulte des items. D'une part, on souhaite obtenir une corres- 
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pondance directe entre la difflculte des items et le niveau d'habilete 
des sujets. D'autre part, 11 est essentiel de pouvoir comparer entre 
eux. tous les items qui peuvent etre integres a la banque. La theorie 
du trait latent offre une solution a ces problemes. II est inutile de 
rappeler les fondements de la theorie classique dans le domaine 
psychometrique. On trouvc d'excellents ouvrages d*lntroduction 
(Gulliksen 1950. Allen et Yen 1979, Bemier 1985) de meme que des 
ouvrages qui approfondissent des notions de base telles que le 
concept de score veritable (U'd et Novick 1968) ou de fiabiUte 
(Cronbach 1970). Toutefois, en ralson de sa nouveaute, de la 
controverse qu'elle suscite et de rinteret qu'elle presente en testing 
adaptatif, la theorie du trait latent merlte une attention particuliere. 



2,2.1 Les uifferents modeles 

Comme le fait remarquer le pionnler de la theorie du trait 
latent. Frederick Lord (1980:7) cette nouvelle approche en psychome- 
trle est Tapprofondissement de certains concepts de la theorie 
classique plutot qu'une rupture avec cette demiere. La theorie du 
trait latent doit sa denomination au fait qu'elle postule qu*un test est 
le reflet d une caracterlstique que Ton cherche a mesurer. Cette 
caracterisUque, que ce soit rintelligence. le vocabulaire ou la 
maitrise de la langue seconde. se nomme le «tralt». On le dit ^latent* 
du fait qu'il n'est pas observable. Comme le soulignent Hambleton 
et Cook ( 1 977) , c*est au moyen d une fonction mathemaUque que Ton 
peut relier la perforaiancc lors d un test au trait sous-jacent. II est 
done essenUel, dans le cadre de la theorie du trait latent, que 
le test ne mesure qu un seul trait c*est-a-dire que le test soit 
unidimensionnel. Si la theorie classique suppose une certaine 
unidimensionalite, notamment en ce qui conceme la notion de 
fiabilite ou TinterpretaUon des scores, cette exigence devient 
preponderantc dans le cadre de ia theorie du trait latent. L*uni- 
dimensionalite impllque que le test mesure le meme trait dominant 
a tous les nlvcaux d'habilete et que la foncUon niathematique qui 
relie la performance au trait est identique pour tous les sous- 
ensembles de la population. La theorie du trait latent porte aussl la 
designation «theorle de reponse aux items*. Seguln et Auger (1986:8) 
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signalent racceptlon que prend le terme «ltem» dans la perspective 
d une theorle qui postule runldimensionalite: ^definition operatlon- 
nelle d'un aspect partlcuUer dc Thabllete mesuree». 

La fonctlon mathematlque entre le trait et Thabilete se 
represente sous la forme d'une courbe caracterlstlque d'ltem que 
Hambleton et Swamlnathan (1985:25) definlssent ainsl: "An Item 
characteristic curve (ICC) Is a mathematical function that relates the 
probability of success on an item to the ability measured by the item 
set or test that contains it", Analysant le cas de tests a reponses 
ouvertes (aucun hasard) corrlgees de fagon dichotomique (exact ou 
inexact). Lord (1953) a demontre le premier que cette. fonctlon non 
lineaire se definlssait selon la formule 2.1: 

P^te) = . dz ^^^^^ 

P,(0) est la probabilite qu*un sujet donne dent le niveau 
d'habilete est 0, reponde correctement a Titem i, z est un ecart 
normal d une distribution dont la moyenne est b, et Tecart type 1 /a,. 
Le symbole a designe un parametre qui represente la discrimination 
de Titem alors que b est un parametre qui en represente la difflculte; 
les valeurs que peuvent prendre ces parametres sont theoriquement 
infinies. En praUque, les valeurs de a oscillent entre 0 et 2 et 
indiquent la pente de la courbe au point ou 0 = b. Plus a augmente. 
plus la pente est forte et mieux Titem discrlmine. La valeur de b 
s'exprime sur la meme echelle que 0, les deux indices etant transfor- 
mes selon Techelle d*une courbe normale c'est-a-dire de fagon a ce 
que leur moyenne soit de 0 et leur ecart type de 1. La valeur de b 
varie done habituellement entre -2, pour un item tres facile, a 2, 
pour un item tres difficile. Les valeurs de a et de b doivent etre 
esUmees pour chaque item. Farce qu*on considere a la fois la 
difficulte et la discrimination, cette formule deflnit la fonctlon ogivale 
normale a deux parametres. 

Afin de rendre la formule mathematlquement plus facile a 
manlpuler. Blmbaum (1968) a propose une serle de formules que 
Ton peut substituer a la formule orlginale. Le modele logistlque a 
deux parametres se definlt done par la formule 2,2: 

t>3 
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L'uUlIsatJon d'une constante D = 1 .7 dans la fonction loglsti- 
que peimet de reconstltuer la foncUon ogivale normale. 

La figure 2.5 illustre quelques exemples de courbes carac- 
teristlques d'ltems utiUsant un modele a deux parametres. 



FIGURE 2.5 
Couibcs d*un module 4 2 parametres 
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Quand on utilise des quesUons a choix mulUple, on introduit 
un facteur de hasard dont Tinfluence s'exerce plus paxticulierement 
Chez les sujets au bas de 1 echelle d'habilete. 

Dans ce type de test, on tient compte du hasard en ajoutant 
un parametre supplementaire c. 




-2-10 1 
HABILETE 

1 : a= .6 b= -L5 c= .1 

2 : a= 1.0 b= 1.0 c = .2 

3 : a= 1.4 b = 1.5 c = .3 



Le parametre c etant un indlce de probabillte. sa valeur se 
situe entre 0 et 1. On peut penser que c = 1 /N, ou N correspond au 
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nombre d'opUons offertes. En pratique, les dlstracteurs n'exercent 
pas tous la meme influence de sorte que c doit etre estime 
et pris en consideration dans le calcul de la probabilite de reponse 
exacte. On definlt alors un modele a trois parametres selon la 
formule 2.3: 

Dai (e-bi ) 

Pi(e) « ci + (1 - ci) — - — - — rs-ir-r 

77^^^^^^^ (2,3) 

Ainsi qu'on peut I'observer dans la figure 2.6, c deflnlt Tasymptote 
de la courbe caracterisUque de Titem puisque le modele a trois 
parametres prevoit que P, > 0. 

Le modele a trois parametres est lourd et requiert Testimation 
de trois variables. Le statlstlcien danois G. Rasch (1960) a done 
propose une simpliflcaUon du modele logistique, soit un modele a un 
parametre ou seule la difflculte varle. Le modele a par la suite connu 
beaucoup de succes notamment sous Timpulsion des travaux de 
Wright et Panchapakesan (1969) et Wright et Stone (1979). Le modele 
de Rasch presuppose que le hasard n'intervient pas et que tous les 
items discrimlnent egalement de sorte que a = 1 et c = 0. La figure 
2.7 montre que les items se distinguent essenUellement par leur 
posiUon sur Fechelle de Thabilete. En flxant a et c, TestimaUon des 
parametres (la calibraUon) est grandement facilitee. De plus, on peut 
maintenant considerer le score obtenu a un test (le nombre de 
reponses exactes) comme Testlmation la plus juste de Thabilete du 
sujet. La procedure d'estimation des parametres des items (la 
calibration) reste complexe, necessite un grand nombre de sujets et 
doit s'effectuer a Talde d'un ordinateur. 

Hambleton et Swaminathan (1985:chap 7) decrlvent cinq 
procedures pour eflect "er TesUmation des parametres: 

— le m.axlmum de vralsemblance combine: 

~ le maximum de vralsemblance conditlonnel (avec le 
modele de Rasch): 

- le maximum de vralsemblance marginal (avec le modele 
de Rasch ou le modele a deux parametres): 
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— restlmatlon bayesienne; 

— restlmatlon par approximation (avec les modeles a deux 
ou trois parametres). 

Des recherches sent encore en cours afin de rendre ces 
procedure plus efllcaces. Les travaux autour des procedures 
bayesiennes. ou Ton amorce la calibration a partlr d*hypotheses sur 
la distribution des reponses, sont partlcullerement prometteurs 
(Mislevy 1986). 



FIGURE 2.7 
Courbes d*uii modele & tin parametre 
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Les estimations qui resultent de TapplicaUon de ces 
procedures ont I'avantage d'etre Independantes du groupe de 
sujets a partilr duquel on a obtenu les donnees, Alnsi, contral- 
rement aux indices foumis par la theorie classique, les parametres 
ne sont pas affectes par la distribuUon des reponses a Tinte- 
rieur du groupe. Une fois la calibration completer on peut, a Talde 
de procedures semblables a celles qu'on utilise pour restimation des 
parametres, fairc TestimaUon de ITiabilete des sujets. De meme 
qu'il y a invarlance des estimations relatives aux items, il y a 
invariance des estimaUons de I'habilete des sujets, Cette 
propriete des estimaUons de Thabilete des sujets est determinante 
dans toutes les applicaUons qui font appel a une banque 
d'items. En effet, elle implique qu'une fois les items calibres, on peut 
estimer Thabilete des sujets meme si ceux-ci ont repondu a des 
items differents. 



2,2.2 Les contraintes 

Outre rinvariance des parametres des items et rinvarlance 
des estimaUons d'habilete, Bejar (1983) ajoute comme avantage de 
la theorie du trait latent, par rapport a la theorie classique, le fait 
qu'on puisse obtenir une indicaUon de la precision de la mesure en 
foncUon de Thabilete. II ajoute toutefois que tous ces avantages ne 
Uennent qu'a la condiUon que les exigences de la theorie soient 
respectees. Ces exigences sont de trois ordres: independance locale, 
unldimensionalitc et adequation du modele cholsi. Pour McLean et 
Ragsdale (1983) ces exigences sont si fortes que lesmodeles issus de 
la theorie ne conviennent pas du tout aux situations reelles ou un 
test est necessalre. 



2.2.2. 1 Uindependance locale 

Le postulat d'independance locale Implique qu'a un niveau 
d'habilete donne, les reponses des sujets sont staUsUquement 
independantes. En d'autre termes, lorsque 6 est constant, on ne doit 
pas retrouver de correlation entre chacun des items. Ainsi, si un 
groupe d'items se disUngue d'un autre groupe d'items par le contenu 
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particulier qu'il verifie, on observera des correlations entxe les 
items a I'interieur des groupes et le postulat d'lndependance locale 
ne sera pas respecte. Selon Traub (1983:61), il s*agit la dune 
exigence peu reallste de par la nature meme de Tapprentissage: It 
seems reasonable then to expect differences of many kinds, some 
obvious, some subtle, in what it is different students learn, both 
in school and outside, L'exigence est d'autant plus restrictive, 
dans le cas de tests en langue seconde. que ceile-ci est 
apprise dans des conditions qui peuvent varier considerablement 
d*un apprenant a Tautre. 

Uindependance locale impUque aussi que la performance a 
un item n*inflyence pas la performance a d'autres items, S*il 
s*averalt par exemple que les tests de closure fassent inter- 
venir plus que le contexte immediat et que de ce fait Tiden- 
tlfication d*un mot, foumisse un indice pour Tidentification du mot 
suivant ou du mot precedent, il faudrait alors renoncer a en 
calibrer les items. De fait, le probleme risque de se poser pour toute 
mesure integrative ou Ton reconnait une interaction entre les 
elements verifies. 



2,2.2,2 Uunidimensionalite 

Nous avons deja souligne Timportance du concept d*unidi- 
mensionalite quand on veut appliquer la theorie du trait latent. Cette 
question est si importante que c'est sans doute Taspect de la theorie 
qui a suscite le plus de controverses et de discussions. Pourtant, il 
importe de preciser que Tunidimensionalite est etroitement liee a 
rindependance locale des items, ^observation de la matrice des 
correlations entre les items de tests multidimensionnels montre en 
effet que des reseaux d'items se constituent autour des dimensions 
du test 

HatUe (1981, 1985) decrit un grand nombre de techniques 
pour detecter la multidlmensionalite sans toutefois en trouver une 
qui soit tout a fait appropriee. II distingue quatre families de 
techniques: 



— Les echelles de Guttman: 

On organise les donnees de fagon a ce que la diagonale de la 
matrice des reponses separe les reponses exactes de celle qui sont 
inexactes. Soit un test de n items administre a n + 1 sujets, formant 
une echelle parfaite; si n = 5, 1 indique une reponse correcte et 0 
une reponse incorrecte, on obtient: 

11111 
11110 
1110 0 
110 0 0 
1 0 0 0 0 
0 0 0,0 0 

La construction d'une echelle implicationnelle de ce type 
suppose runidimensionalite. Cependant, il est peu vraisemblable que 
les donnees d'un test puissent se conformer a une echelle aussi 
contraignante. 

~ Les indices de Jvabilite: 

Des indices comme le KR-20 ou Ycdpha de Cronbach peuvent 
refleter la structure dimensionnelle d*un test mais sont davantage 
des indices de consistance interne que d'unidimensionalite. Ainsi, a 
moins de calculer le coefficient de fiabilite en comparant la premiere 
et la deuxieme moitie du test, les indices de fiabilite peuvent etre 
assez eleves dans le cas de test ou la contrainte de temps est impor- 
tante. Or, dans ces cas, il y a certainement une dimension, la 
Vitesse, qui se superpose a Thabilete sur laquelle porte Tensemble du 
test. De plus, on salt que les indices de fiabilite varient avec le 
nombre d'items de sorte qu'il est difficile d'etabUr des references 
precises. Par ailleurs, il faut noter que les indices de discriminaUon, 
partlculierement la correlaUon biserielle qui sert dans Tanalyse des 
items pour ameliorer la fiabilite, peuvent aussi sen^ir a reperer des 
items dont le contenu s'ecarte d'une dimension commune. 

— La decomposition en factears: 

fanalyse factorielle des correlations entre les items pose des 
problemes particuliers. En utilisant les correlations phi, on obtient 
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rarement des resultats saUsfaisants du fait de remergence d'un 
facteur de difllculte. Hulin, Drasgow et Parsons (1983:chap 8) 
suggerent d'analyser plutot les correlations tetrachoriques. Selon 
Lord et Novlck (1968:349,382) Tanalyse des correlations tetrachorl- 
ques. quarid elle reussit, tend a favoriser une interpretation 
unidimensionnelle. McDonald (1980) propose une analyse non 
lineaire qui tiendrait mieux compte du fait que la theorie du trait 
latent reconnait la non Unearite de la relation entre la performance 
a un item et Thabilete. Reckcase (1978) examine les eigenvalues 
produites par Tanalyse de matrices de correlations tetrachoriques et 
conclut en la valeur de Tanalyse factorielle pour ce type de proble- 
mes. De plus, il note que la robustesse des procedures d'estimation 
des parametres autorise Tutilisatlon de la theorie du trait latent 
meme lorsque les donnees ne sont pas parfaitement unidimension- 
nelles. A Taide d'une procedure similaire, Davidson (1988) analyse 
plusieurs tests d'anglais langue seconde et remarque que la grande 
majorite de ces tests sont unidimensionnels. Face aux problemes 
associes aux correlations entre items. Cook et aL (1988) proposent 
de regrouper les items par serie de 3 a 7 items de meme type et de 
difficulte egaJe. En appliquant la technique a la section sur Taptitude 
verbale du Scholastic Aptitude Test (SAT), ils remarquent que le test 
est plutot unidimensionnel bien que le sous-test de lecture se 
distingue par la presence d un facteur supplementaire qui pourrait 
bien etre attribuable a des contraintes de temps. 

— Les analyses du trait latent: 

Dorans et Kingston ( 1 985) completent Tanalyse factorielle par 
une analyse du trait latent de sections portant sur Taptitude verbale 
d'un test du meme type que le SAT, le Graduate Record Examination 
(GRE). II degagent egaJement deux facteurs fortement correles: un 
facteur de lecture et une maitrise des elements discrets. La techni- 
que utilisee par Dorans et langston s^apparente a la procedure de 
Bejar (1980) qui propose aussi, comme alternative aux techniques 
d'anaJyse factorielle. de diviser le test entier en fonction des dif- 
ferences de contenu qu'on y trouve de fagon a composer plusieurs 
sections. II s*agit alors de comparer les resultats de la calibration 
pour le test complet avec les resultats des calibraUons par section. 
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La procedure permet d'ldentlfier les tests muludimensionnels a la 
condlUon qu'aucun facteur principal ne se degage clalrement. En 
effet, Harrison (1986:107) observe que des programmes d'esti- 
maUon des parametres comme WGIST (Wingersky et oL 1982). 
foumissent des estlmaUons relativement robustes: As a single 
group factor controls variation in more Uems and concomitantly 
in a large percentage of items composing a test, LOGIST begins to 
take this factor into account as part of the unidiiner^ional trait 
Hambleton et RovinelU (1986) donnent des exemples de cas de 
mulUdimensionalite qui echappent a la procedure de Bejar. Henning 
(1988), quant a lui, juge la procedure assez efficace apres avoir 
compare les calibraUons d'un test multidimensionnel et d'un test 
unidimensionnel: 11 note que meme si les parametres de difTlculte 
varient peu. les estimations des niveaux d'habllete des sujets 
divergent sensiblement. 

Par allleurs, avec les modeles a deux ou trols parametres, il 
est possible d'utiliser I'indice b afln de reperer les items qui ne se 
conforment pas a la dimension commune pour eventuellement les 
retrancher et recalibrer. On obUent alors un test plus unidimen- 
sionnel et des coefficients d'adequation du modele plus satisfaisants. 
Si I'eliminaUon des Items divergents ne suffit pas, on pourra alors 
constituer des sous-tests pour chacune des dimensions ou recourlr 
a des procedures plus complexes bien qu'encore imparfaites pour 
traiter des dormees multidimensionnelles. II faut egalement noter 
que la plupart des loglclels de callbraUon foumissent des indices sur 
radequation du modele par rapport aux donnees. McNamarra (1990) 
propose meme d'utiliser ces indices a des fins de validation pour les 
tests de langue seconde. 



2.2.2,3 L'adeqaation du modele 

Les indices d'adequation que calculent les logiciels de 
calibration permettent de reperer les ensembles de reponses qui ne 
se conforment pas au modele choisi. II peut s'agir d'items pour 
lesquels. a un niveau d'habllete donne, les reponses presentent 
des ecarts importants d'un sujet a I'autre ou dont la pro- 
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portion de reponses correctes s'ecarte de la probabilite prevue 
par la courbe caracterisUque de I'ltem. II peut aussi s'aglr de 
sujets dont les configurations de reponses n'obeissent pas a 
ce que predit le modele. Us sources des divergences des items ou 
des sujets sent generalement reliees a un probleme d'unidi- 
mensionalite ou a un mauvais choix de modele. Au plan de 
I'adequaUon des sujets au modele. Traub (1983:64) fait 
remarquer qu'il est peu realiste. voire dangereux. de chercher 
a faire correspondre l?s comportements des apprenants a des 
modeles aussi rigides: 

It will be a sad day Indeed when our conception of mea- 
surable educational achievement narrows to the point 
where it coincides with the criterion of fit to a unidimen- 
slonal item response model, regardless of which model is 
being fitted. 

Au plan de I'adequaUon des items. Traub signale qu'il est 
certainement abusi' de crolre que tous les items d'un test puissent 
discriminer de lameme fa?on. Aussi prefere-t-il au modele de Rasch. 
un modele a deux parametreL ou. dans le cas de questions a choix 
multiple, un modele a trois parametres. 

Neanmoins. I'avantage du modele a trois parametres est 
souvent remis en cause de par la tallle de I'echanUllon qu'il impose. 
Si on peut obtenlr des estimations raisonnables avec un modele a un 
parametre en utUisant 200 sujets. U en faut souvent dix fois plus 
pour en arriver a un degre de precision comparable avec un modele 
a trois parametres. Alnsi que le fait remarquer Lord (1983): Small N 
Justifies Rasch model 

Traub et Lam (1985) font remarquer que 1' augmentation du 
nombre de cas ne garantit cependant pas une meiUeure 
adequaUon et en viennent a douter de la valeur de la theorie du trait 
latent. II n'en reste pas moins que la theorie compte de plus 
en plus d'adeptes et que. dans revaluation de la langue 
seconde. on volt slmplanter le modele de Rasch. Henning et ai 
(1985:152) font remarquer: 
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Item Response Theory In general and Rasch In particular, 
are sufllciently robust with regard to the assumption of 
unldimenslonallty to permit applications to the deve- 
lopment and analysis of language tests which may be 
comprised of Item domain representing diverse subskills of 
language use and which may be applied In the testing of 
persons from diverse national, linguistic, cultural, educa- 
tional, and professlonnal backgrounds. 

2.2.3 Lafonction d*information 

Dans les cas ou ron peut satlsfalre les exigences de la theorie 
du trait latent, celle-cl devient fort sedulsante surtout a cause de la 
notion d'information qui est sous-jacente a la plupart des appli- 
cations de la theorie, 

Hans le cadre de la theorie classlque, on suppose que le 
nombre de bonnes reponses a un test est TindlcaUon la plus juste 
qu*on peut obtenir sur le score reel du sujet c'est-a-dire la perfor- 
mance de celul-cl Independamment de Terreur inherente a Hnstru- 
ment de mesure. Dans le cadre de la theorie du trait latent, cette 
assertion ne tient que si on uUllse un modele a un parametre, ou 
tous ies Items dlscrlminent egalement et ou le hasard ne joue pas. 
On dlra alors que pour le modele de Rasch. le nombre de reponses 
exactes a un test de longueur pre-etablle, est une statistique 
sufllsante, c*est-a-dire un indlce qui tient compte de toute Tinfor- 
mation dlsponible, Alnsl: 

e = E Ui 

(2,4) 

ou pour un test de n Items I. U prend la valeur de 0 pour une 
reponse Inexacte et de 1 pour une reponse exacte. Avec un modele 
a deux parametres. 11 faut tenlr compte de la dlscrlmiiiatipn en 
appllquant la formule 2.5: 

e = E aUi 

(2.5) 

Cependant. avec un modele a trols parametres. meme si le 
nombre de reponses exactes peut parfols representer une ap- 
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proximaUon acceptable (Yen 1984), une telle foraiule n'existe 
pas. De meme, si le nombre d'items varie d une administration 
a Tautre, il faut recourlr a d'autres moyens pour estlmer 
rhabilete. Une fois les parametres connus, on peut utlllser une 
procedure par maximum de vraisemblance qui consiste a resoudre 
requatlo;\ 2.6: 

E (U. - P.) « 0 

(2.6) 

ou Q, = 1 - P, et P*, represente la premiere derivee: 

P»t = dP* / de. 

Non seulement le maximum de vraisemblance fournit 
une statistique suffisante, mals il assure aussi la nor- 
malite asjrmptotique de sorte que la moyenne de Testi- 
mation s'etablit a 0 et Tecart-type a [1(0)1*'. Cette demiere 
valeur constitue en fait Terreur type de la mesure pour un 
sujet donne. 

L'erreur de la mesure est inversement reliee a la quantlte 
d*information que fournit le test: plus le test apporte d'information 
sur le suJet, moins 11 y a de possibilite d'erreur. Chaque item 
contribue aminimiser Terreur. La fonction d*lnformatlon s*ecrit done 
ainsi: 

. . P' « 



La figure 2.8 montre quelques exemples de courbes d*infor- 
mation d*items. L'information obtenue varie en fonction des parame- 
tres et de rhabilete. Le sommet de la courbe correspond au niveau 
d'habilete ou Titem est le plus eflTlcace. 

La fonction est d*autant plus interessante que Tinformatlon 
est cumulative. Ainsi. 



•1 

1(8) « n 1(6, Ua ) 

1 * t 



(2.8) 




Pour chaque item qui s'ajoute au test, on peut prevoir dans 
quelle mesure cet item contrlbuera a rinfoimatlon totale. Cette 
propriete d'additivite permet de determiner les zones d'habilete ou le 
test est le plus elTicace. La figure 2.9 montre la courbe d*informatlon 
de deux tests typiques comprenant chacun une vlngtaine d'items. Le 
premier est plutot facile mals comprend des items qui s*adressent a 
des sujets repartis sur une large gamme de nlveaux: le second, plus 
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difficile, vise a recueillir davantage d'information autour d'un niveau 
particulier. Le premier pourralt bien etre un test de classement alors 
que le second servlralt plutdt a la selection de candldats, 

A partir de la fonction d'information, on peut calculer Terreur 
type du test pour chaque niveau d'habilete: 

1 



E(e) = 



vrie) 

11(8) ] 



(2.9) 



FIGURE 2,9 
Courbes d*information de tests 
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Lafonctiond'informatlonpresente unavantage incontestable 
par rapport a la noUon de flabllite de la theorie classlque. 
Alors que la notion de flabillte suppose que la marge d'erreur est 
Identlque, peu importe le niveau d'habilete, la fonctlon d'lnfor- 
mation permet d*identifier des zones ou I'erreur sera plus ou 
molns grande. Cette fonctlon utilise les parametres foumis par la 
calibration et est le fondement des applications de la theorie 
du trait latent. 



2.2.4 Les applications 

Selon Lord (1977c), les applications de la courbe caracteristi- 
que des Items et de la courbe d'information qui en decoule, montrent 
blen que, contralrement a la theorie classique, la theorie du trait 
latent permet de faire des predictions. De ce point de vxie. la theorie 
s'apparente a la theorie de la generallsabilite (Brennan 1983. Linn 
et Werts 1979 et, pour les tests en langue seconcje. Bolus et al. 
1982). Quatre types d*applications nous semblent particulierement 
interessants. 



2.2.4.1 U elaboration de tests criteries 

La propriete d'invariance des Items permet de 
depasser revaluation normative et de sltuer les sujets sur 
une echelle d'habllete independante de la population qui sert 
a la standardisation du test. Une fois la validite de la 
mesure assuree, on obtient done un resultat qui peut etre 
directement relie a des objectlfs d'acquisition. D'autre part, 
rinvariance des sujets permet de comparer des candidats sans 
que ceux-cl n'aient necessairement repondu aux memes questions. 
On peut alors cholslr les Items qui apportent le plus d^n- 
formation, compte tenu des objectlfs du test et de la zone 
d'habllete relaUvement a laquelle des decisions devront etre 
prises. Les modeles de reponses aux Items deviennent alors 
ues outlls precleux pour elaborer des tests criteries qui 
peuvent s* adapter a des besoins partlcullers (Yen 1984). On 
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peut meme entrevoir des utilisations avec des tests a 
reponses ouvertes qui ne sont pas necessalrement corriges dichoto- 
miquement (Samejima 1978). 

2.2.4.2 Uequivalerice entre les versions d'un test 

Afin de preserver la confidentialite dun test ou d'eliminer 
reffet de repetition, il est souvent utile de disposer de versions 
comparables. L'examen des courbes d'information des tests offre une 
alternative aux techniques habituelles d'equivalence (Angoff 1971, 
1982, Morris 1982. Samejima 1977). On peut en effet obtenir des 
versions equivalentes d un test compose a partir dune banque 
d'ltems en s'assurant d une part, q Ton mesure un contenu similaire 
unldimensionnel et d' autre part, que les courbes d'infomiation des 
differentes versions soient identiques. Ainsi, depuis 1978, on utilise 
la theorie du trait latent pour etablir I'equivalence entre les diffe- 
rentes versions du TOEFL (Cowell 1982). 

2.2.4.3 La detection de biais 

Si les resultats de la calibration d une serie d'items a partir 
des reponses d un groupe de sujets divergent des resultats de la 
calibration des memes items a partir des reponses d un groupe de 
sujets culturellement different du premier, on peut conclure 
que le test favorise un groupe culturel par rapport a Tautre 
(Vetterli 1987). En effet, bien que le prlncipe d'invariance des 
items n'impose pas une distribution normale de I'habilete dans le 
groupe servant a la calibration, la composition du groupe doit 
cependant respecter le postulat d'unidimensionalite. Madsen (1986) 
demontre que puisque I'analyse est affectee par la multldimen- 
sionalite des sujets, on peut detecter les biais culturels dun 
test de langue seconde. Par ailleurs, de par la valeur predic- 
tive des courbes caracteristiques des items, on peut reperer des 
sujets qui presentent une configuraUon de reponses aberrante (Hulin 
et ai. 1983:chap 4-5, Levine et Drasgow 1983). On doit alors se 
demander si le sujet veut dejouer le test, s'il a fait ce 1 I 
auparavant, s'il s'agit d'une variation individuelle au plan des 
connaissances ou s'il s'agic d'un biais culturel. 
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2,2,4,4 Le testing adaptatif 

Lorsque les items d'une banque ont ete calibres, il est 
possible d'ajuster le niveau de difTiculte apres chaque reponse et de 
poursuivre radmlnistration jusqu'a ce qu'on alt atteint le niveau 
d'infonmaUon souhaite. Urry (1977) precise certains criteres pour les 
parametres d un test. Selon lui, on peut accroitre rapidement la 
fonction d'information si la valeur des parametres de difficulte a est 
distribuee uniformement a Tinterieur de la gamme d'habilite visee, 
si la valeur des parametres de discrimination b depasse .8 et si on 
maintient la valeur des parametres de hasard c a un niveau assez 
bas. Ces criteres devraient servir de lignes directrices pour 1 elabo- 
ration d un bon test adaptatif. Si le test s'avere valide, on obtient 
alors un test sur mesure [tailored tesQ qui, comme le fait remarquer 
Seguin-Duquette (1982) en se referant a revaluation de la langue se- 
conde, s'inscrit bien dans le courant de Tenseignement individualise. 



2,3 Un test adaptatif en langue seconde 

Lorsqu'on envisage d'utiliser un test adaptatif en langue 
seconde, on peut, soit recourir a un instrument deja existant, soit en 
elaborer un. Comme il existe pour Tinstant peu de tests adaptatifs 
standardises et que les I jsolns des etablissements varient conside- 
rablement, la demiere solution peut presenter certains avantages 
meme si elle implique un investissement de temps, d'energie et 
d'argent assez important. De fait, au moment ou nous avons propose 
le present projet de recherche, il nexistait, a notre connaissance, 
aucun didacticiel de tesUng adaptatif de langue seconde qui fasse 
usage de donnees reelles. Le fait de mener une experlmentaUon avec 
des items et des sujets reels plutot que simules s'averait done une 
tache considerable mais presentait un interet certain (Tung, 
communication personnelle). 



2.3,1 Les tests adaptatif s disponibles 

Les seuls tests adaptatifs qui aient ete mis sur le marche 
sont le produit d'une equipe de I'Universite Brigham Young. Par 
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ailleurs, des tests interessants conpus par des groupes de 
travail oeuvrant d'abord dans le domalne de revaluation de 
Texpression orale, devraient bientot voir le jour. La liste des 
tests adaptatifs disponibles ou en voie de realisation est done 
relativement courte. 



2.3. L 1 Le TOEFL informatise 

Bien que le test n'ait pas ete utilise avec des sujets 
reels (Hicks 1986) et qu'il n*exploite pas pleinement les possi- 
bilites du testing adaptatif, il presente un interet du fait qu'il 
s'agit de la version informatisee du test standardise en langue 
seconde le plus populaire au monde. Pour la version informatisee, 
on a retenu 19 items de la secUon II du TOEFL (Structure et 
expression ecrite) et 28 items de la section III (Lecture et 
vocabulaire). Ces items sent distribues dans cinq niveaux: A, 
B, C, D et E. L'administration commence avec un item de niveau 
moyen. Le test s'arrete quand le sujet a repondu correctement a 
quatre questions appartenant a un niveau. Le sujet revolt des items 
de trois niveaux adjacents de sorte qu'il est classe dans une 
des Irois categories suivantes: ABC, BCD ou CDE. Le test 
apparait comme un moyen efficace de faire un premier tri parmi un 
groupe d'etudiants- 



2.3.1.2 LeS'CAPE 

Ce test vise a classer les etudiants qui s*inscrivent a des 
cours d'espagnol a rUniversite Brlgham Young (Larson 1987), II 
utilise une banque d un millier d'items a cholx multiple evaluant la 
lecture ou portant sur la grammaire et le vocabulaire. En utilisant 
le modele de Rasch. on a pu limiter a moins de 200 le nombre de 
sujets necessaires pour la calibration. Les items sont distribues dans 
une cinquantaine de niveaux d'habilete et ont ete calibres selon le 
modele de Rasch. L*epreuve commence par un item facile et se 
termine quand Tetudiant a repondu correctement a cinq questions 
d'un certain niveau ou incorrectement a quatre questions d un 
certain niveau. 
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2.3. 1 .3 Le ^^ompuTest 

Fruit de trois annees de travail (Madsen 1989a, 1989b), il 
s'agit d un test de classement en anglais langue seconde. La version 
la plus recente utilise un mlllier d*items calibres selon le modele de 
Rasch. Le critere d'arret est le resultat de la fonction d'infor- 
mation. Lorganlsation du contenu rappelle les premieres versions du 
TOEFL (Oiler et Spolsky 1978). On y retrouve quatre sections: 
ecoute, lecture, vocabulaire, et grammaire. II faut noter que 
comme on evalue la comprehension auditive, on doit coupler un 
micro-ordinateur de la famille IBM a un cassettophone ou a un 
appareil CD-Roitl 

2.3.1.4 Le test de VACTFL 

^elaboration de ce test de lecture s*insere dans un 
effort pour mettre au point une serie de tests destines a 
mesurer les habiletes receptives en suivant les lignes directrice 
etabliespar rACTFLlDandonelli 1987, Dandonelli et Rumlzen 1989). 
Les textes a lire figurent dans un questionnaire alors que les 
questions apparalssent a I'ecran. Le test dure environ ure demi- 
heure. L'administraUon fait appel a un sous-programme du logiciel 
MicroCAT congu pour la famille IBM (Assessment System Corp. 
1987). On s'est aussi servi de ce logiciel pour faire la calibration des 
items selon un modele a deux parametres. L'originalite de ce test 
tient au fait qu'on postule que la lecture est une activite mulUdimen- 
sionnelle (Kaya-Carton et Carton 1986) et qu'on doit done recourir 
a des techniques appropriees. Cela implique une analyse beaucoup 
plus complexe et une experimentation a grande echelle: on a 
administre 750 items a 2,500 sujets. 

2.3. 1.5 Le test de la Defense americaine (DU) 

Ce vaste projet vise a mettre au point une serie de tests 
adaptatifs pour mesurer la lecture dans plusieurs langues (Lowe et 
Jaiiczewski 1989). Le premier prototype est en hoUandais. Comme 
le test doit servlr a des decisions importantes, on administre de 100 
a 150 items par session. La plupart se presentent comme des 
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questions de comprehension sur un passage a lire, mais on a aussi 
ajoute des items a element discret. La calibration se fait selon le 
modele de Rasch. Ce test se distingue par une procedure complexe 
de selection des items. Premlerement, le sujet est exclu d un niveau 
s'il echoue a quatre questions de ce niveau. Deuxiemement, on 
essale de respecter le deroulement typique de Tentrevue oraie 
proposee par VInterAgency Language Roundtable: mise en train, 
progression, epreuves de niveaux et remise a niveau. Troisiemement. 
la selection prend en consideration les aspects culturels et le 
contenu des textes presentes. 

On pourrait aj outer a cette liste la version informatisee du 
test d'angiais langue etrangere de Oxford (Willmot et Kam Chuan Aik 
1990). mais dans ce cas. la possibilite de generer differentes 
epreuves sert plutot a assurer la securite du test qu*a Tadapter a 
Tetudiant. De meme, 11 faut noter des applications de la theorie du 
trait latent telles que les travaux de Griffin (1985) sur I'entrevue 
orale, de Zettersten (1985) sur les connaissances lexicales ou de De 
Jong (1986) pour la construction de test par niveaux. Pourtant. 11 ne 
s'agit pas de tests adaptatifs a proprement parler. On constate done 
que les tests adaptatifs sont peu nombreux et sou vent encore en 
developpement. 



2,3.2 La creation d'un test adaptatif 

En Tabsence de test adaptatif pour le classement general en 
fran^ais langue seccnde. Telaboration d un tel instrument constitue 
un aspect majeur de la contribution de la presente recherche. Nous 
avons suivi les trois etapes prescrltes par Heniysson (1971) pour la 
mise au point d'un test: la pre-experlmentation. Texperimentation et 
Tadministration experimentale. Toutefois, il va sans dire que la mise 
au point d un test adaptatif est plus complexe que celle d'un test 
conventionnel. 



2.3.2,1 La planification 

Au plan pedagogique. il a d'abord fallu choisir un cadre 
theorlque dont nous avons precise les grandes lignes dans les pages 




precedentes. Nous en sommes alors venu a un test de classement en 
trois parties: comprehension, choix de Tenonce approprie et phrases 
a trou. II est clair cependant que cette forme de test Uent non 
seulement compte d'orientations pedagogiques mais qu'elle doit 
concilier deux modes d'administraUon fort differents. D'une part, le 
test «papier-crayon», sans bande audio avec grille de correction. 
D'autre part, un test informaUse qui, malgre un progres techno- 
logique rapide, doit respecter les Umites des micro-ordinateurs qu*on 
trouve aujourd'hul dans les etablissements. De plus, il nous a fallu 
choisir un cadre theorique au plan docimologique. Endossant les 
conclusions de Henning (1984), nous pensons que la theorie du trait 
latent, dans la perspecUve de notre recherche, convlent bien a 
relaboration dun test adaptatif en langue seconde. Malgre les 
reserves dont Tinvariance des sujets et I'invariance des items ont fait 
I'objet, la souplesse que permettent ces principes explique pourquoi 
la plupart des tests adaptatifs qu'on connait ont ete elabores dans 
le cadre de la theorie du trait latent. 

La premiere etape dans la creation d'un test adaptatif 
consiste a rediger un grand nombre d'items qui pourront etre 
integres dans un questionnaire. Tous les items sent administres 
sequentiellement, soit de fagon conventionnelle, soit par ordinateur. 
En apportant un grand soin a la redaction des items, on peut eviter 
que par la suite Tanalyse ellmine tellement d'items qu'il faiUe 
reprendre roperaUon. Cela est d'autant plus important que des 
facteurs d'ordre pratique et psychologique limitent le nombre dltems 
que Ton peut administrer en une session. Meme si, par la suite, les 
techniques d'ancrage permettent d'elargir la banque. il e^t souhaita- 
ble qu*on puisse apres la premiere calibration disposer d'une 
quarantaine de bons items dans chaque banque. On determine les 
items a consenrer tant a partir des indices classiques que des Indices 
que foumit la calibration. 



2.3.2.2 La calibration 

A cause de sa simplicite el surtout parce qu'il peut fonction- 
ner avec des echantillons plus restreints. le modele de Rasch connait 
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une certaine popularite pour ce qui est de la parametrlsaUon des 
items (Auger 1986). Plusieurs logiclels sont dlsponibles pour 
effectuer les longs calculs qu'impliquent les procedures iteraUves de 
la calibration: par exemple, BICAL (Wright et oL 1979), MicroScale 
(Madsen 1989) ou le sous-programme RASCAL de MicroCAT 
(Assessment System Corp 1987). Compte tenu de la taille de 
rechantillon de la pre-experimentation, nous avons utilise tout 
d'abord le modele de Rasch. 

Toutefois, il nous semblait qu'un modele a trots parametres 
etait plus approprie. En effet, nous n'avions aucune raison de penser 
que les items discriminaient tous de la meme maniere pas plus que 
nous n'avions de raison de penser que. dans un test a choix 
mulUple. reffet de hasard etait negligeable. Ree (1981:18) Indlque 
que meme si un echanUllon de 2.000 sujets permet de minimiser la 
marge d'erreur avec un modele a trois parametres, des echantillons 
plus modestes peuvent sufllre: If an ordering of examinees is aR that 
is required or if the relatively higher errors are not important to the 
purpose, item polls of 100 items calibrated on a sample of 500 
subjects wiR produce high correlations, especialy if 20 or more items 
are administered Un echantillon de 750 sujets represente done un 
objectif realiste et acceptable pour la premiere version dun test de 
classement. Les parametres peuvent se preciser en integrant les 
sujets qui uUlisent par la suite les versions conventionnelles 
standardisees ou les resultats aux Items d'ancrage. La call- 
braUon des items avec un modele a deux ou trois parametres 
peut se faire avec des logiclels comme LOGIST (Wingersky et at. 
1982). BILjOG (Mislevy et Bock 1986), MultiLOG (Thissen 1986) 
ou le sous-programme ASCAL de MicroCAT (Assessment System 
Corp 1987). 

II faut preciser egalement que la calibration n'exclut pas le 
recours aux techniques classiques d'analyse des items. Au plan du 
test. Texamen des moyennes. des variances, des indices de fiablUte 
a encore sa place. Au plan des items, il est souvent uUle d*etudier les 
correlations biserielles ou point-biserielles et les indices de probabi- 
lite, tant pour les bonnes reponses que pour les distracteurs. Des 
loglciels comme LERTAP (Nelson 1970), le sous-programme ITEMAN 
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de MicroCAT, ou plusieurs sous^programmes de logiciels de statisti- 
ques plus generales peuvent etre utilises pour realiser une analyse 
des items selon les principes de Tanalyse classique. 



2.3.2.3 La programmation ^ 

Si les tests adaptatifs sont encore peu nombreux, les 
logiciels qui servent a la programmaUon de tels tests le sont aussi. 
Meme des programmes comme CAUS (Duke University 1989). 
congus essentiellement pour I'enseignement de la langue et 
dotes de fonctions pour radministration de tests, se pretent 
mal a la manipulation d'items ranges dans des banques et ont des 
capacites de calculs insuffisantes. Le logiciel MicroCATcontient une 
serie de sous-programmes tres puissants qui peuvent servir a 
developper et administrer un test adaptatif. On peut y integrer des 
graphiques. relier divers sous-tests ou choisir divers algorlthmes de 
selecUon. Toutefois, I'administraUon a plusieurs etudiants suppose 
qu'on fasse Tacquisition de plusieurs systemes d'administration ce 
qui rend les couts prohibitifs. Certains compilateurs congus 
specifiquement pour gerer des banques de donnees peuvent etre 
utilises. L'utilisation d'un langage de programmation demeure une 
altemaUve dont les possibilites sont infinies mais qui requiert 
beaucoup de temps et une certaine formation. Nous avons. quant a 
nous, utilise le langage Turbo-Pascal complete de quelques 
fonctions pre-definies pour la gesUon de base de donnees (Borland 
1985. Borland 1987). 

Lors de la mise en place d'un systeme de test adaptatif. il 
faudra prevoir la programmation de deux composantes essenUelles: 

— Une composante de developpemenL 

C'est le systeme de gestion de la (des) banque(s). C^est grace 
a ce systeme qu'on peut corrlger certains items, en ajouter ou en 
eliminer. II est egalement souhaitable que la composante de 
developpement puisse servir a simuler Tadministratton de seances 
de testing adaptatif. 
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— Une composcmte d'administratioru 

C*est le systeme qui sert a calculer le niveau, a choisir les 
items et a les presenter au sujet. La composante d*adminlstration 
sert egalement a rapporter les resultats, transformer les scores. 
Informer Tetudiant, enregistrer le niveau dans un flchier... 

On peut envlsager diverses procedures pour Testimation du 
niveau. Nous avons opte pour une estimation basee sur le maximum 
de vraisemblance avec une procedure alternative au debut du test 
et dans les cas de non-convergence. Par ailleurs, dans le cas de 
notre test, 11 apparaissait a priori plus raisonnable de traiter chaque 
section comme un sous-test independant. Le resultat du sous-test 
precedent peut senrir de point de depart au sous-test suivant. Pour 
le premier sous-test, on utilise des renseignements que foumit le 
sujet au tout debut. Le fait de disposer d*une evaluation preliminaire 
permet de reduire le nombre d*items necessaires pour atteindre une 
marge d*erreur acceptable. 



L'ELABORATION DU TEST 
«PAPIER-CRAYON» 



3.1 De la version pre-experimentale 
a la version ezperimentale 

Prevoyant un taux de rejet des items entre 30% et 40% et 
conscient que la duree moyenne du test ne devait pas 
depasser deux heures» cinquante items par section nous semblaient 
raisonnables. En eliminant un item sur trois et en les remplagant 
apres la premiere mise a Tessai* on pouvait esperer obtenir au 
moins 40 items dans la banque. Compte tenu des objectifs de la 
recherche^ 0 nous semblait prudent de nous restreindre a des 
questions a choix multiple. Par ailleurs, afin d*assurer une 
bonne fiabilite sans prolonger indument Tadministration du test, 
nous avons decide de presenter quatre choix par item. Meine 
si les distracteurs font reference a des enreurs susceptibles d*etre 
commises par des sujets anglophones, on ne cherchait Jamais a 
«pieger» Tetudiant. 

3.1.1 ^experimentation 

3.1.1.1 La redaction des items 

Dans la mesure ou Texploitation d'une banque d'items se 
prete mal a une selection en terme de contenu specifique et que le 
test n'a pas de fonction diagnostique. il nous semblait assez peu 
utile de proceder a un inventaire rlgoureux des aires de contenu 
devant etre representees. Ainsi. nous n'avons pas fait de liste 
exhaustive et structuree des points de langue a verifier ou des 



situations a illustrer. Nous avons simplement vellle a evlter les 
redondances superflues; nous nous sommes assure de verifier les 
points de langue les plus importants ct dc fairc reference a des 
situaUons relativement famllieres. Enmettant a contribution notre 
riche experience dans Tenseignement du frangais langue seconde. il 
nous etait possible de prevoir les difficultes propres a chaque 
niveau et de creer des items appropries. Par ailleurs, soucieux de 
preserver le caractere integratif de Thabilete amesurer, nous n*avons 
pas cherche a Isoler Telement verifle de difficultes susceptlbles 
d*apparcutre concurremment. 

Dans cette perspective, le premier sous-test evalue la 
comprehension globale plutot que des elements grammaticaux ou 
lexicaux specifiques. Pourtant, on remarque une insistance sur la 
comprehension des relaUons temporelles (la chrcnologie) ou logiques 
(la cause par rapport a Teffet). Les textes a lire eontiennent environ 
35 mots. Comme cette partie implique plus de lecture dans la langue 
seconde, elle a ete placee au debut du test. On demande a Tetudiant 
de reformuler le contenu ou de repondre a une question. Ainsi, a 
ntem 47» Tetudiant doit reformuler en resumant le contenu d*unft 
carte postale: 

Bonjour Pierre! Je passe des vacances magnlflques. Je 
viens d*an1ver a Marseilles. C*est une ville tres spe- 
ciale. J'al hate de me retrouver sur les plages de la Cote 
d'Azur et de pouvolr me baigner dans la Mediterranee. A 
bientoU Jacques. 

a) Jacques est en vacances en Italic. 

b) Jacques passe de tres bonnes vacances. 

c) Jacques va passer les prochalns jours a Paris. 

d) Jacques rcvlent chez lul dans quelques Jours. 

S^U doit repondre a une question, la question peut etre 
directe, comme dans le cas de Titem 38: 

Comme ll faisalt gris, Je n*al pas mange sur la terrasse. 
L'apres-midl, Je suls alle 4 la blbllotheque. Quand Je suis 
sorU, il pleuvalt. J ai decide de prendre le taxi pour rcnU^r 
chez moi. 
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Quand est-ce que la plule a commence? 

a) Avant qu'U mange. 

b) Pendant qu'U etait a la blbllotheque. 

c) Pendant qu'U etait dans le taxi. 

d) Apres qu'il est arrive chez lui. 

Ailleurs. comme a I'item 45, la question prend la forme d'un 
enonce a contlnuer: 

Nous vous prions de prendre note que la partie de baseball 
prevue pour cet apres-midl est annulee a cause de la greve 
des Joueurs. Nous ne pouvons malheureusement rembour- 
ser aucun billet 

La partie est annulee... 

a) parce qu'il pleut 

b) parce que les joueurs ont arrete de travailler. 

c) parce que I'equlpe a des problemes fmanciers. 

d) parce que plusieurs joueurs sont malades. 

Dans le deuxieme sous-test, nous avons tente de presenter 
des situaUons familieres. Dans plusieurs cas, I'etudiant doit choisir 
Tenonce qui est le plus approprie semantiquement. Ainsi Titem 16, 
conQu a Tintentlon des debutants, se lit ainsi: 

You are driving too fast and a policeman asks you to stop on 
the shoulder. What do you expect the policeman to say? 

a) Votre f>ermis de conduire s'il vous plait. 

b) Haut-les-mains! 

c) Je m'appelle Jean-Marc Labonte. 

d) Le pleln. s'il vous plait. 

U arrive aussi que I'etudiant doive choisir I'enonce qui est le 
plus approprie du point de vue sociolinguistique. A Titem 1 1 . deux 
reponses sont eliminees a cause d'un contresens mals le chobc entre 
b et c est relie au registre: 

You are in an elevator witlx many colleagues, Vnfoitimately. 
you spill some cojjee on one of your colleagues* arms. What 
should you say? 



a) Excusc-tDl au moins. 

b) Ayez robllgeancc de me pardonner. 

c) Excuse-mol» je suis desole, 

d) Mcs apologies. 

Ce dernier item fait reference a un acte de parole partlculier, 
s*excuser. Plusieurs items procedent ainsl avec dilTerents actes de 
parole. L'item 19 fait reference a I'expression d'une possibilite par 
rapport a celle d'un doute: 

You are waUing for Maurice, Maurice is usually late. How 
could you say that you are almost sure he will be late? 

a) Cela se peut qu'il soit en retard. 

b) 11 n'arrivera peut-etre pas a Theure. 

c) II est possible qu'il soit en retard. 

d) Je doute beaucoup qu'il arrive a Theure. 

II faut noter que tous les distracteurs sent grammaticalement 
corrects. II ne s'agit done pas pour I'etudiant de trouver 
renonce correct mais plutot d'identifier celui qui est semanU- 
quement et socialement acceptable. II ne fait pas de doute que dans 
cette perspective, on risque de faire intervenlr une mulutude 
de consideraUons qui ne sont pas necessairement pertinentes 
pour le classement des etudiants et qui peuvent compliquer la 
standardisation du test. On remarquera aussi que cette partie 
suppose la connaissance de Tanglais. Meme si tous les sujets 
lisaient Tanglais et que nous avons essaye de formuler les situations 
le plus simplement possible, il ne fait pas de doute que Thabilete a 
lire en anglais est inteivenue. 

Le dernier sous-test e>q)lolte un type de tache fort 
populaire dans les tests de langue seconde. Bien que tout a fait 
artificieU Texerclce lacunaire permet la verification d'une mul- 
titude d*elements. On salt que dans une approche fondee sur 
Texploitation d*une banque d*items, le test de closure pose des 
problemes serleux. Comme il nous semblait que la phrase a trou 
etait suscepuble de dormer une information equivalente, nous 
avons souvent assimlle ce sous-test a un test de closure. La 
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selection n*est pas aleatolre et on se confonne au format des 
choix multiples. Ici encore Texperience du professeur de langue nous 
a guide dans la selection du mot a supprlmcr dc meme que la 
formulation des distracteurs. On peut mesurer des elements de 
nature diverse. Ainsi Titem 27 verlfle la connalssance du voca- 
bulaire de base: 

Hier, c'etalt . Done, aujourd'hui c'est Jeudi. 

a) jeudi b) vendredi 

c) mercredi d) lundi 

Par contre, Titem 14 verille nettement les connalssances 
grammatlcales de Tetudiant: 

— Avez-vous rencontre Pierre? 

— Qui, nous avons rencontre une fois. 

a) en b) le 

c) r d) y 

On peut egalement mesurer des aspects plus mecaniques qui 
sont souvent des indicatei:rs du degre de maitrise, C est le cas 
notamment de Temploi des prepositions que cherche a mesurer 
ntem 22: 

Lc but du Jeu est lancer la balle dans le filet 

L*equif>c qui marque le plus de buts gagne. 

a) de b) k 

c) dans d) pour 

L'interet de ce type d'items tient aussl au fait que Tetudiant 
y repond rapldement. sans devoir foumir un grand effort de con- 
centration. C est pourquoi. cette paitie termine le test. 

Les 150 items qui composaient la version pre-experimentale 
du test se trouvalent dans un cahier broche d*une vingtalne de 
pages. Chaquc partie commencalt avec un encadre ou se trouvalt 
formulee. succintement. la consigne. On demandalt aux etudiants 
de ne pas ecrire sur le questionnaire mals de se senir plutot de la 
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feuQIe de reponses qui accompagnalt !e cahier. On avait joint a la 
feuQle de reponses, une autre feullle que devalent lire et signer les 
etudiants: on leur expliquait les buts du test et Tusage qu'on ferait 
des resultats. 

3.1.1.2 Uechantillon 

Meme si on entrevoyait des utilisations aupres de clienteles 
adultes ou de niveau secondaire, le test s*adresse plus partlcu- 
lierement aux etudiants de niveau post-secondalre qui s'inscrivent 
dans des cours de frangais langue seconde. Plus speclfiquement, 
nous avions a Tesprit les besoins particuliers du programme de 
bourses du Secretariat d*Etat. Comme nous Tavons deja menUonne, 
ce programme oflfre la chance a des etudiants canadiens frequentant 
des institutions secondaires et post-secondalres de s'inscrire a des 
sessions intensives de six semaines en langue seconde. Au cours de 
la session, les etudiants recoivent au moins trois heures de cours de 
langue par jour, du lundi au vendredi. Le reste du temps est 
consacre a des actlvites organisees et des ateliers qui doivent se 
derouler dans la langue seconde. Parce qu*on insiste sur Tusage de 
la langue seconde en tout temps, 11 s*etablit entre la salle de classe 
et le milieu une dialectlque favorable a Tacquisition de la langue. 
Cette situation pose des problemes particuliers du point de vue de 
revaluation d'autant plus que s'y associent des considerations 
pratiques fort importantes. En effet. le defi est souvent de classer le 
plus adequatement possible, en une demi-joumee, un groupe de 40 
a 500 etudiants de formaUons diverses et venant de differentes 
regions du pays. 

L'Universite York ofTre, hors campus, des sessions de frangais 
langue seconde, dans le cadre du programme du Secretariat d'Etat. 
La session a lieu au printemps. a Saint-Georges de Beauce, une 
petite ville francophone sltuee a une centaine de kilometres au sud 
de Quebec. Les etudiants habitent dans des families, participent a 
diverses activites et sulvent des cours credites de TUniversite York. 
Le programme de Saint-Georges ofTre plusieurs avantages du point 
de vue de Texperimentation. Avec une centaine d'etudiants. \1 s'agit 
d'un programme de tallle moyenne ou Ton retrouve tous les niveaux, 
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des parfalts debutants Jusqu'au plus avances. Contrairement a 
beaucoup de programmes du meme genre, la quasi-totalite des 
etudiants qu'ony admet sont des boursiers du Secretariat d'Etat. On 
s'assure ainsi d'une bonne homogeneite de rechantillon: 

- rage des etudiants varle peu, la moyenne s*etablissant a 
un peu plus de vlngt ans; 

- tous sont inscrits comme etudiants a plein temps dans 
une universlte canadienne; 

- tous sont soit citoyens canadiens, soit immigrants regus. 

On peut done compter sur une connalssance commune de 
ranglais et sur une experience du contexte culturel canadien. Cela 
est d'autant plus marque pour le programme de Saint-Georges de 
Beauce que les deux tiers des parUcipants viennent de la region 
metropoUtaine de Toronto. 

3.1.1.3 Le deroidement de V experimentation 

Le programme de Saint-Georges permettait egalement de bien 
controler les conditions d'administration. Le test a ete administre a 
109 etudiants qu'on avait divlses en trois sous-groupes. A chaque 
sous-groupe etait assigne un surveiUant qui s'occupalt de distribuer, 
de ramasser le materiel et de repondre aux questions des etudiants 
relativement a la consigne. Le surveiUant etalt aussi charge d'ins- 
crire au tableau la correction de quelques erreurs mineures qui 
s*etaient glissees dans le questionnaire. 

Conformement aux exigences du Secx-etariat d'Etat, le test a 
ete administre deux fois: le premier Jour de la session (pre-test) et le 
dernier Jour, six semalnes plus tard (post-test). Comme nous 
cherchlons d'abord a verifier la valeur du test comme outll de 
classement, nous avons considere unlquement les resultats au pre- 
test. Les resultats du post-test n'ont ete utilises que pour les 
quelques etudiants qui y avalent obtenu un score inferieur a celui de 
leur pre-test. Enfln. 11 faut soullgner que la situation a Saint-Georges 



se pretait blen a rexperimentaUon car pour les etudiants 
inscrits a York, le test navait pas de consequence sur le clas- 
sement reel. En effet. pour ces etudiants. le cours s'lnscrlvalt dans 
une sequence de cours deja prevue. Par conue, leurs scores 
servaient a etabllr des normes a parUr desqueUes nous avons pu 
classer les quelque 35 autres etudiants. Ce mode de classement a 
semble d'alUeurs avoir ete efflcace car aucun des changements de 
groupe qu'on a effectues par la suite n'etalt attribuable a une 
erreur de classement. 

Bien qu'on alt encourage les etudiants a ne pas s'attarder a 
un item particulier. tous avaient assez de temps pour repondre. La 
contrainte de temps n'a done Joue aucun role mais il n'est pas exclu 
qu'un effzv de fatigue soit inteivenu. On avait alloue trois heures 
pour TadministraUon du test et la plupart des etudiants ont mis un 
peu plus de deux heures. Le premier sous-test s'est nettement avere 
le plus long a faire. 



3.1.2 L'analyse 

3. 1 .2. 1 Les statistiques generales 

Les 150 reponses des 109 repondants ont ete trans- 
crites et rangees dans un fichier pour le traitement infor- 
maUque. Ces donnees ont d'abord ete soumises au programme 
CORREC. un programme que nous avons elabore pour 
effectuer une premiere analyse des trois sous-tests. D'abord. 
le programme corrige les resultats des etudiants et les ordonne 
selon le type de trl requis; on obUent a la fois le score brut 
et le score standardise (score z). CORREC foumit ensuite des 
staUstiques generales sur le test: moyenne. variance, fiabilite 
(KR-20)... Enfin. on trouve une analyse sommaire des items 
tenant compte de la difficulte des items (la probabilite dune 
bonne reponse) et de la distribution des reponses selon les 
dlstracteurs. 

Nous reproduisons toutefois dans ie tableau 3.1 les staUsti- 
ques generales des trois sous-tests. 
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TABLEAU 3. 1 



Statistiques generalet de la Tersion 1 



#2 



13 



TOTAL 



Maximum 
Minimum 
Moyenne 
Variance 



46 

8 



44 

14 



46 

11 



133 
35 



Ecart-type 
Fiabilit6 
Erreur^type 



34.220 
87.025 
9.329 
0.903 
2.899 



32.807 
34.731 
5.893 
0.756 
2.908 



31.193 
75.861 
8.710 
0.886 
2.937 



98 .220 
516.784 
22.733 
0 .956 
4 .747 



On observe tout d'abord que personne n'a obtenu de score 
parfalt et ce malgre la presence d'etudiants avances. On peut done 
penser que certains items etaient beaucoup trop dlfflcUes ou que les 
items plus difficUes discrlminalent mal. Par allleurs, ainsi qu'on 
pouvait s'y attendre avec un test a choix multiple, on n'observe 
aucun score nul: U est vralsemblable qu'en choisissant au 
hasard une des quatre reponses proposees, on obtlendra un score 
d'au moins 35 sur 150. D'apres les moyennes, le sous-test de 
comprehension s'est avere le plus facile et celui des phrases 
lacunaires, le plus difficile. Get ordre est Tinverse de ce que nous 
attendions, mais il est possible qu'un effet de fatigue alt pu influen- 
cer les moyennes. En appliquant le test de Scheffe, on s'aperQOit que 
seule cette difference est significative (p < .05): les differences entre 
la moyenne du deuxieme sous-test et celle des deux autres sous- 
tests peuvent etre attribuees au hasard. Dans Tensemble, la 
moyenne generale de 98.22 (65%) est tout a fait saUsfaisante pour 
un test offrant quatre options pour chaque reponsc. L'ecart type (et 
consequemment la variance) est plus grand au premier sous-test; il 
est toutefois beaucoup trop reduit au deuxieme sous-test. On peut 
penser que la partie de comprehension d'un paragraphe discrlmine 
mieux que celle ou Tetudiant choislt Tenonce approprie; dans ce 
dernier cas. les scores auraient tendance a se concentrer autour de 
la moyenne. Cette interpretation se trouve confirme par Tindice de 
fiabilite KR-20 qui se calcule ainsi: 
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ou k represente le nombre d*items, s^^ la variance des scores, P la 
probablllte d'une reponse correcte tandls que Q = P — 1, Le KR-20 
est generalement une approximation satisfaisante de la fiabilite des 
tests de langue (Krzanowski et Woods 1984), Les indices de fiabilite 
se comparent avantageusement avec ceux calcules par Davidson 
(1988) dans le cas de tests de langue standardises, Uerreur de 
mesure indique les bomes theorlques de Tintervalle de confiance: 
2/3 des scores reels devralent se situer a Tinterieur de cet intervale. 
La mar^e d'erreur interdit done un classement serre surtout pour 
avec le deuxiefne sous-test dont la variance est peu elevee. 



FIGURE 3, 1 
Distribution des scores de la Tersion 1 




Scrre 2 

#1 Comprehension 
#2 fenonce approprle 
#3 Phrases a trou 



4 



\ 



V^laboratton du test ^papier-crayon* 



87 



En portant les scores standardises sur un graphique 
(figure 3.1), on est surprls de voir la fornie leptokurtique de 
la courbe du premier sous-test alors que la variance de ces 
scores etait la plus grande. Toutefois, ce qui est plus important 
encore c'est que les scores standardises obtenus lors de cette 
pre-experlmentation, se concentrent autour du niveau «Inter- 
mediaire fort» plutot qu'autour de la moyenne. Meme s'll est 
a peu pres impossible d*obtenlr une courbe symetrlque dans 
un test ou les sujets peuvent devlner la reponse, il n'est pas 
souhaitable dans un test de classement, que les scores 
s'agglutinent a une extremite de Techelle d'habilete. Dans les 
trois sous-tests, on pourrait rendre la distribution plus 
nonmale et ameliorer la discrimination en ajoutant des items 
difficiles. 

Comme le montre la figure 3.2, c'est le sous-test #1 
qui beneficierait davantage de TaddiMon d*items plus difficiles. 
L'histogramme obtenu en considerant les probabllites de reponse 
exacte pour chaque item montre en effet que la plupart se situent 
entre .9 et .6. 



FIGURE 3.2 
Repartition des items du sous-test #1 
par degre de difllculte (rersion 1) 
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Faci le Difficile 
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FIGURE 3.3 
Repartition des items du sous^test #2 
par dcgrh de difficulte (rersion 1) 













50 






















37 
33 




46 
44 






42 


49 








38 


48 


32 




41 










39 


36 


43 


30 




27 




16 


34 


29 


28 




26 




12 


23 


25 


24 




22 








10 


20 


15 


19 




21 


47 


9 


17 


5 


18 




14 


45 


7 


12 


3 


13 




8 


40 




4 


6 


2 


11 


35 


1 


31 


>.9 


>.8 


>.7 


>.6 


>.5 


> .4 


> 0 


< 1 


<.9 


<.8 


<.7 


<.6 


<.5 


<.4 



FIGURE 3.4 
Repartition des items du sous-test #3 
par degre de diflicuite (version 1) 
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Facile Difficile 

Les niveaux de dlfflculte sont beaucoup mieux distrlbues 
pour le sous-test #3 (figure 3.4) ce qui explique la forme plus 
normale de la courbe des scores standardises. Quant au sous-test 
#2 (figure 3.3)» il semble qu*il y ait une demarcation entre les items 
faciles d une part et les items dlfl*iciles d*autre part» et que le falble 
indice de fiabllite cache un probleme au plan de la discrimination 
des items. 
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3. 1 .2.2 Les correlations 

A Talde d un programme que nous avons cree. le programme 
COREVAR. nous avons prodult les matrices de correlation, de 
correlation au carre et de variance /covariance. L'examen des 
covarlances du tableau 3.2a nous amene a suspecter des problemes 
au plcin de la discrtmination des iter^is du sous-test #2 puisque la 
variance de ce sous-test est le nombre le plus petit de la matrice. Les 
scores tendralent done a se concentrer autour de la moyenne. 



TABLEAU 3.2 
Correlations et corarUnces de la rersion 1 



a) Covariances entre les scores 





If 1 » 2 M 3 


#1 Comprehension 
#2 Enonc^ appropri^ 
113 Phrases k trou 


87.025 45.395 71.337 
45.395 34.731 42.852 
71.337 42.852 75.861 


b) Correlations: coefficient r de Pearson 




» 1 « 2 » 3 


#1 Comprehension 
112 Enonce approprie 
»3 Phrases ^ trou 


1.000 0.826 0.878 
0.826 1.000 0.835 
0.878 0.835 1.000 


c) Carres des coefficients de correlation 




» a ff 2 3 


HI Comprehension 
mi Enonce approprie 
«3 Phrases ^ trou 


1.000 0.682 0.771 
0 .682 1.000 0.697 
0. /71 0 .697 1.000 



Cependant. ce qui frappe davantage. ce sont les fortes cor- 
relations que Ton observe entre les sous-tests dans le tableau 3.2b. 
Tous les coefficients de correlation sont superleurs a .8. La corre- 
lation entre Ic test de comprehension et celui des phrases a trou est 
de .878 ce qui veut dire, comme Tindique le tableau 3.2c. que ces 
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deux tests ont en commun 77% de leur variance. Plus etoijiant 
encore, les correlations impliquant le sous-test #2, sont superleures 
a rindice de fiabilite de ce sous-test! SI la di^sion en trois sous-tests 
se justiflalt de par la nature de la tache, il n'en reste pas moins que 
ces parUes du test semblent mesurer prlncipalement des aspects 
communs de la maitrise de la langue. Gardant a Tesprlt le fait que 
la decision reliee au classement est essentiellement unidimen- 
sionnelle. 11 nous apparalssalt tout a fait justifie de conserver ces 
trois sous-tests dans les versions ulterieures. 

En utiUsant le sous-programme SCATTERGRAM de SPSS-X" 
(Nie et oL 1983), nous avons pu obtenlr les diagrammes de disper- 
sion. Ces diagrammes montrent que la correlation entre chaque 
sous-test et le test total est Hneaire. On note une concentration des 
points dans la parUe superieure des diagrammes ce qui confirme 
qu'il faudrait ajouter des items plus difficiles. Les points s'ecartent 
generalement peu de la droite puisque les coefficients de correlaUon 
entre les parties et Tensemble sont assez eleves: .961 pour le sous- 
test #1, .918 pour le sous-test #2 et .960 pour le sous-test #3. 



3.1.2.3 ^analyse des items 

Le releve de CORREC donne peu d'information sur la dis- 
crimination de chaque item. Afin de determiner quels etaient les 
items les plus discriminants c'est-a-dire ceux qui departa- 
geaient le mieux les sujets. nous avons utilise le programme 
LERTAF^, En plus de la distribuUon des reponses et de rindice de 
probabilite qui y est associe. LERTAP foumit des indices sur le 
comporteinent de Titem par rapport a Tensemble du sous-test et du 
test complet. Tant pour la bonne reponse que pour les distracteurs. 
on trouve deux coefficients: la correlation point-biserielle et la 
correlation biserielle. Ces deux coefficients foumissent la meine 



» SPSSrX est mstaile sur Tordlnatcur VAX dc rinsUUit deludes pcdagoglques dc 
rOntaiio. 

^ Lc prog.ammc LERTAP est Instiille sur Tordinatcur VAX de Tlnstitut d'etudes 
pcdagoglques de TOntarlo. 
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Information c'est-a-dire la correlation entre une reponse dlcho- 
tomique {exact/ inexact) et un score. Toutefois, le calcul de la 
correlation biserlelle, en supposant une distribution norm?ie 
pour des variables dichotomiques, produit des coefficients plus 
eleves surtout lorsque les indices de probabilite prennent des 
valeurs extremes. LERTAP foumlt egalement la moyenne (au sous- 
test et au test complet) des sujets qui ont choisi la bonne reponse et 
chaque distracteur. 

Nous avons fait remarquer que les items du sous-test de 
comprehension etaient souvent trop faciles mais que dans Ten- 
semble ils semblaJent bien discrlmlner. Uitem 25 de ce premier 
sous-test consistait en un court message sur la prevention des maux 
de dos; 11 s'averait particulierement discriminant bien qu*un peu 
facile. Pour cet item, le releve de LERTAP foumissalt rinformation 
suivante^: 



TEST NO 1 VALl.DAT SUBTEST 1 COMPREHENSION 

ITEM NUMBER 25 COEFFICIENTS OF CORRELATION MEANS 



OPTION 


WT 


N 


P 


PB-ST 


PB- 


•TT 


B- 


•ST 


B 


-TT 


ST 


TT 


1 


0 


11 


10.1 


-0.24 


-0 


23 


-0. 


41 


-0 


.39 


27.64 


82.73 


2 


0 


6 


5.5 


-0. 33 


-0. 


35 


-0. 


69 


-0 


.72 


21.33 


65. 50 


3 


0 


13 


11.9 


-0.41 


-0 


39 


-0. 


66 


-0 


.63 


24. CO 


74.23 


C 4 


1 


77 


70.6 


C 0.65 


0. 


65 


0. 


86 


0 


.86 C 


38.12 


107.75 


9 


0 


2 


1.6 


-0.13 


-0 


17 


-0. 


3B 


-0 


.50 


25. 50 


70.50 



TOTAL 109 



Par allleurs, on a constate des lacunes dans le deuxleme 
sous-test, au plan de la discrimination. Ainsi a Titem 26, 
Tetudiant doit choisir Tenonce qui convlent pour avertir quelqu'un 
de faire attention a une marche. Peut-etre a cause de la 
difHculte lexlcale que represente le mot «marche» dans Tenonce 
correct -Attention a la marche», les etudiants les plus avances 
cholsissent plutot le faux-aml structural «Sur. 2llle tes pas». La 
correlation entre la reponse correcte et le score global est 
done a peu pres nulle. 



Pour des ralsonsdcspacc, nous nc rcprodulsons pas Ic rclevc mccanographlquc des 
analyse de LERTAPci nous nous Umltons a un excmple typique pour chaque sous- 
IcsL Toutcfois, ces documents sont dlsponiblcs surdemande. 
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TEST NO 1 VALX.DAT SUBTEST 2 ENONCE APPROPRIE 

ITEM KUMBER 26 COEFFICIENTS OF CORRELATION MEANS 

TT 
L14.50 
90.11 
93.07 
98.91 
0.00 



OPTION 


WT 


N 


P 


PB-ST 


PB 


-TT 


B-ST 


B- 


-TT 


ST 


1 


0 


16 


14.7 


0 .28 


0 


.30 


0.43 


0 


.46 


36.75 


2 


0 


19 


17.4 


-0.19 


-0 


.16 


-0.23 


-0 


.24 


30.42 


3 


0 


27 


24.8 


-0,11 


~0 


.13 


-0.15 


-0 


.18 


31.70 


C 4 


1 


47 ■ 


43.1 


C 0.04 


0 


.03 


0.05 


0 


.06 C 


33.06 


9 


0 


0 


0.0 


0.00 


0 


.00 


0.00 


0 


.00 


0.00 


TOTAL 




109 



















Dans certains cas, il apparalssalt que la situation avait ete 
interpretee difleremment; pour d'autres items il semblait que les 
sujets ignoraient comment reagir dans la situation presentee. Bref, 
c'est nettement dans cette partle que nous avons observe les 
coefficients de discrimination les plus bas. 

Les reponses au sous-test #3 (phrases a trou) etalent 
beaucoup plus previsibles, ce qui a simplifie I'analyse. 



TEST NO 1 VALl.DAT SUBTEST 3 PHRASES A TROU 

ITEM NUMBER 2 COEFFICIENTS OF CORRELATION MEANS 



OPTION 


WT 


N 


P 


PB- 


'ST 


PB-TT 


B-ST 


B 


-TT 


ST 


TT 


1 


0 


3 


2.8 


-0. 


12 


-0.04 


-0.31 


-0 


.11 


25.00 


92.33 


2 


0 


37 


33.9 


-0 . 


25 


-0.19 


-0. 32 


-0 


.24 


28.22 


92.24 


3 


0 


5 


4.6 


-0. 


38 


-0.42 


-0.82 


-0 


.92 


16.20 


54.60 


C 4 


1 


63 


57.8 


C 0. 


46 


0.40 


0.58 


0 


.51 


C 34.62 


105.97 


9 


0 


1 


0.9 


-0 . 


14 


-0.13 


-0.52 


-0 


.51 


19.00 


67 .00 



TOTAL 109 



L'ltem 2 ou Tetudiant doit choisir la preposition qui accom- 
pagne le verbe «finir» («fini de mangerO illustre ce que nous avons 
observe dans la plupart des items de cette partie: une question de 
difficulte moyenne, assez discriminante. 

En complement aux resultats du programme LERTAP, nous 
avons traite les donnees avec le programme BICAJJ, un programme 
de calibration des items selon le modele de Rasch. L*utilisation de ce 
programme a ce stade se Justifialt a deux points de vue. D'une part. 



* Lc programinc BICAL est Instnllc sur Ibrdlnatcvir VAX dc I'lnstltut d etudes 
pcdagoglques dc rOntarto. 
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nous n'avions pas assez de sujets pour utiliser le modele a trois 
parametres que nous comptions utiliser par la suite. D'autre part, 
BICAL foumit des renselgnements qui peuvent souvent facUiter 
I'analyse des items d'un test de langue (Perkins et Miller 1984). 
Ainsi, le programme divlse Techantillon en sous-groupes selon 
rhabilcte et inscrlt les proportions de reponses correctes observees. 
De plus, le programme calcule non seulement la correlation point- 
biserlelle mais aussi un indice de discrimination obtenu a partir des 
donnees de la calibration. Enfin, le programme donne la difficulte de 
Titem (en logits) de meme qu'un indice d'adequation qui montre dans 
quelle mesure les reponses coincident avec la courbe caracterls- 
tiques de I'item. Par ailleurs, BICAI. peut eliminer, avant le calcul 
final, un certain nombre de sujets qui ont des configurations de 
reponses marginaJes (misfitting response patterns], 

Comme le test avait ete aussi administre au terme des six 
semaines du programme, nous nous sommes interroges sur le fait 
que onze etudiants avaient obtenu, au post-test, un score inferleur 
a celui du pre-test. On au^^t pu y voir Tindication d'items peu 
fiables. Toutefois, nous avons ete tres prudents dans Tutilisation de 
ces donnees pour Tanaiyse des items car les conditions d'adminis- 
tration du post- test etait loin d'etre ideales de sorte que les ecarts 
semblaient plutot attribuables a Tinattention et a la fatigue. En efiet, 
Tecart par item chez ces onze etudiants etait plus manifeste vers la 
fin du test ou avec des items qui demandaient plus de concentration 
de leur part. Le fait que les onze sujets etaient plutot avances 
(moyenne de 1 16, au pre-test) indiquait bien que les items echoues 
a la deuxieme administration etaient les plus difficiles ou les plus 
exigeants sur le plan cognitif. 

Nous avons finalement complete Tanalyse des items en 
administrant le test a trois etudiants francophones qui ne se 
specialisaient pas en frangais ou dans Tenseignement. En etudiant 
les resultats de locuteurs natifs au TOEFL, AngofT et Sharon (1971) 
ont trouve qu'un test congu pour revaluation d une langue etrangere 
pouvait difficilement servlr a faire des distinctions entre des 
locuteurs natifs. Par centre. Friedman (1984) slgnale que ces 
donnees peuvent etre fort utiles pour vallder un test, notamment 
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pour la detection de biais culturels, II faut noter que nos trois 
etudiants francophones etalent inscrlts dans une universite anglo- 
phone, de sorte qu'on pouvait penser a priori que les differences 
culturelles ou la maitrlse de Tanglais intervenaient peu. Les scores 
obtenus etalent de 142, 133 et 140. Les items ou au moins deux des 
trois francophones avaient failli ont ete revus et la plupart ont ete 
corrige? ou remplaces. 

3.1.3 Sommaire des modifications 

3. 1.3. 1 Comprehension 

Comme le premier sous-test semblait un peu trop facile, 
certains items dont la probability de reponse correcte etait tres 
elevee ont ete remplaces par des items plus difficiles. C est le cas des 
items 2, 24 et 49. Le texte de Titem 36 a ete modifie pour que la 
reponse soit moins evidente. 

Meme si la discrimination etait en general assez bonne, les 
items 11, 13, 21 et 37 ont du etre remplaces parce qu'ils etalent peu 
efficaces pour departager les etudiants. On les a remplaces par des 
items plutot difficiles. Les distracteurs de Titem 1 ont tous ete 
reformules afin d'ameliorer la discrimination. 

Pour d'autres items (10, 15 et 32), les corrections se sont 
limitees a un ou deux distracteurs qui semblaient peu efficaces. 
Enfin, signalons que Titem 9 a ete modifie parce qu'il ressemblait 
trop a ritem 42. Au total, 13 items (26%) ont ete revises; parmi eux 
7 (14%) ont ete rerrplaces. 

3.1.3.2 Enonce approprie 

Les changemenls au deuxieme sous-test ont ete beaucoup 
plus nombreux. Meme si le niveau de difficulte etait Juste, Titem 7 
a ete revise parce qu*il etait trop facile alors que les items 40 et 50 
ont ete remplaces parce que trop peu d*etudiants y repondaient 
correctement. 
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Plusieurs items etaient nettement deficients du point de 
vue de leur discrimlnaUon, On a carrement remplace les items 
17, 22, 26, 28 et 42. Ce dernier etait d'ailleurs tout a fait 
inadequat par rapport au modele a un parametre, D'autres ont 
ete modifies, parfois substantiellement (items 27, 29, 31, 35 
et 37). 

Dans respoir de voir s'ameliorer la discrimination on a 
egalement revise un ou deux distracteurs dans les items suivants: 
4. 11, 13, 14, 15, 16, 23, 24, 29, 39, 47 et 49, 

Afln d'eliminer des ambiguites dans I'interpretation de 
la situation, on a apporte des changements mineurs dans la 
formulation de quelques situations: c'est le cas ctes items 18 
et 33. 

En comptant le nombre d'items qui ont subi des transforma- 
tions (26 items soit 52%), on voit que molns de la moiUe sont restes 
intacts. Cependant, seulement 7 (14%) items ont ete remplaces. On 
peut done voir que pour ce type de questions ou Yon fait appel 
autant a des Jugements semantiques ou a une nomie sociale qu'a 
une norme linguistique stricte, le processus d^analyse des items est 
fort important. 



3.1.3.3 Phrases d trou 

Dans rensemble, les changements au troisieme sous-test 
etaient plutot des modicatlons que des subsUtutlons. Ainsi on ajuste 
le niveau de dlfficulte en modlfiant les items 17 et 31 (trop 
faciles) et les items 18 et 35 (trop difflciles). Par contre, Htem 
10 etalt beaucoup trop facUe et a ete remplace. Sept items sem- 
blalent moins efllcaces du point de vue de la discrimination. On a pu 
modifier les items 16, 27, 36, 37 et 45 mais U a fallu rem- 
placer les items 24 et 39. Notons d'ailleurs que les items 36, 
37 et 39 s'integraient mal au modele de BICAL, Au cours de ces 
changements, on a generalement elargi les contextes afin de ne 
permettre qu'une seule reponse. 
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Seulement trois items ont vu un ou plusieurs distracteurs 
modifies: 3. 43 et 50. 

Dans I'ensemble les revisions ont affecte 15 items (30%). De 
ce nombre. se jlement 3 (6%) ont ete remplaces. 



3.2 De la version exp6riina atale aux versions finales 
3.2.1 Vexperimentation 

3.2.1.1 La cueiUette des donnees 

A la suite des changements effectues au test, celui-ci a ete 
reproduit en vue d'une experimentation a grande echelle. On 
trouvera quatre quesUons ou on demandalt a I'etudiant d'evaluer lui- 
meme son niveau de francals et de preciser comment 11 avait atteint 
ce niveau. II suffisait a I'etudiant de cocher les cases appropriees ou 
d'lndiquer le nombre d'annees d'etudes du francais. 

La feuUle de reponse etait accompagnee d'une autre feuille 
expliquant le but du test; 991 etudiants ont signe cette feuille 
slgnifiant alnsi qu'Us consentalent a ce qu'on utilise les resultats a 
des fins d'experimentation. Comme I'experimentation s'est deroulee 
a une beaucoup plus grande echelle que la pre-experimentaUon. 11 
nous a fallu visiter plus d'un etablissement. Toutefois. nous 
nous en sommes tenu a des cours intenslfs qui s'alignalent sur les 
objectlfs generaux du programme de bourses du Secretariat d'Etat. 
Une dizalne d'etablissements ont accepte de participer a I'experimen- 
tation. Certains ont uUlise les resultats du test pour leur 
propre classement. La grande majorlte des etudiants etalent des 
boursiers du programme du Secretariat d'Etat. Quelques-uns 
partlcipalent a des sessions intensives sans etre boursiers; d'autres 
s'etalent inscrits dans un cours regulier dispense par un etablisse- 
ment po'='L secondalre. Cependant. dans tous les cas. nous avons 
veUle a ce que les caracterlsUques generales des etudiants 
boursiers se retrouvent chez tous les sujets. Nous avons done du. 
des le depart. reUrer quelques etudiants qui ne repondalent pas a 
cette exigence: c'est le cas notamment des etudiants etrangers 
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dont Tanglais n'efait pas la langue matemelle ou de certains sujets 
plus ages. Lc miUler d'etudlants qui ont accepte de faire le 
test se repartlssalt alnsi: 



College de Saint- Boniface (bourslers) 


65 


College de Salnt-Bonlfacc (programme MIELS) 


81 


College de Rlvl*re-du-Loup 


36 


Unlversltc de Moncton 


39 


College Georges Brown k La Pocatl^re 


92 


Unlversltc Carleton (sessions dete) 


88 


Unlversltc Carleton (InscrlpUons de septembre) 


49 


University York ^ Saint-Georges (pre-test) 


97 


University York ^ Saint-Georges (post-test) 


92 


College Bols-de-Boulogne 


122 


University LaurcnUenne ^ Sudbury 


68 


Centre llnguisUque du College de Jonqi lere 


101 


Unlversltc Western a Trols-Plstoles 


61 


Quelques etabllssements ont administre eux-memes les tests 



et nous ont fait parvenlr les feuiUes de reponses, Toutefols, dans la 
plupart des cas. nous nous sommes rendus sur place pour adminis- 
trer le test. II faut souligner que les dlrecteurs, les coordonnateurs 
pedagoglques. les professeurs et les etudlants se sont toujours blen 
pretes a rexperlmentaUon. Le nombre de sujets et la quallte des 
condlUons d'admlnistratlon sont largcment attrlbuables a cette 
heureuse collaboration. Plus de 400 sujets ont .tpondu au test 
complet: on les retrouve surtout a rUniversite York, au College de 
Saint-Boniface, a rUniverslte LaurenUenne et a TUniverslte Carleton. 
Par ailleurs, il n'etalt pas toujours possible de consacrer deux 
heures et denoie a un test, surtout si les resultats ne 
servaient pas au classement. C'est pourquol. on a souvent du limiter 
rexperlmentaUon a une ou deux parties en s'assurant que les 
resultats partlels comptent un nombre a peu pres egal de sujets 
pour chaque sous-test. 

Nous avons reunl ces donnees pour creer deux echantlllons: 
rechantlllon d'analyse et rechantillon de calibration. L'echanUUon 
d'analyse dcvait servlr aux statlstlques generales. a Tanalysc 
classlque des items et aux correlations. II etalt done important que 
la represention des niveaux reflete celle de la population vlsee par lc 

Emc 
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test. On n'a conserve que les etablissements ou les trois parties du 
test avaient ete administrees a tous les etud^ants inscrits. De plus, 
on a elimine les post-tests de lUniverslte York puisque le fait que les 
memes sujets aient reprls le test apres six semalnes intenstves 
risquait de fausser la representaUvlte de TechanUllon. II restalt done 
dans rechantillon d'analyse, 328 sujets. Ces memes sujets ont ete 
integres au deuxleme echanUUon, rechantillon de calibraUon, qui 
devait senrlr a la parametrisaUon des items. En vertu du prlncipe 
d'invarlance, le processus de calibraUon ne requiert pas une 
distribution normale de ThabiUte mais exlge en contreparUe un 
grand nombre de sujets, surtout avec un modele a trois parametres. 
A coiidiUon que tous les niveaux soient representes, une legere sur- 
representation ou sous-representation d'un niveau ne risque pas de 
fausser les parametres. Nous avons d'abord ajoute les donnees du 
post-test de rUniverslte York. Nous avons ensuite compose des tests 
complets a Taide des resultats partiels c'est-a-dire des reponses des 
etudiants a qui on n'avait administre qu'un ou deux sous-tests. Pour 
ce faire. nous avons utilise le programme COREVAR pour calculer 
les covariances et etablir des tables de regression pour chaque sous- 
test par rapport aux deux autres sous-tests. Par exemple, un score 
de 22 au premier sous-test devait etre joint a un score de 28 au 
deuxieme sous-test et de 22 au troisieme; un score de 35 au 
troisieme sous-test correspondait. pour les premier et deuxieme a 39 
et 36 respectivement. Ces tables ont servl de guide pour creer un 
ensemble de tests composites dont les moyennes s'approchaient de 
celle de rechantillon d'analyse. L'opcrat'on a pemiis de consUtuer un 
echantillon de calibration comprenant Tequivalent de 749 sujets 
auxquels avaient ete administrees les 1 50 questions du test complet. 
Contrairement a rechantillon d'analyse, rechantillon de calibraUon 
de chaque sous-test n'obeissait pas necessairement a une distrl- 
buUon nomiale mais se comparait a rechantillon d'analyse a tout 
autre point de vue. 

3.2.1.2 Uepuration des donnees 

Une fois la laboricuse etapc de la saisle des donnees achevce, 
nous avons procede a quelques analyses prellminaires afin de 
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detecter les sujets qui risquaient davantage de contaminer les 
donnees plutot que de les completer. De fait, nous souhaltions 
ne pas devoir retirer un trop grand nombre de sujets car 750 
represente un echantillon restreint pour une calibration 
utilisant trois parametres. Toutefois, il nous semblalt egalement 
qu'en retirant les configuraUons de reponses divergentes, la 
perte de quelques sujets serait largement compensee par un gain 
appreciable quant a la fiabilite des donnees. 

Nous avons tenu compte de quatre types de criteres en ce qui 
a trait au retrait de certains sujets. 

- Le nombre de reponses: La plupart des logiciels 
distinguent entre les reponses omises (ou annulees) 
et Tabsence de reponse a cause d*un manque de 
temps ou d*un abandon. Nous estimions cependant 
que lorsque qu*il manque plus de la moitle des 
reponses le sujet risque d'apporter des donnees peu 
fiables et nous avons elimine ces cas. De meme, les 
sujets qui donnaient plus de 25 reponses identiques 
ou une serie Inlnterrompue d*une dizalne de repon- 
ses identiques ont ete retires du flchier. 

- Le score: Comme Talgorithme de calibration des items 
s'accommode mal de scores parfalts ou nuls, ces cas ont 
ete retires. De fait, en prenant en consideration Teffet du 
hasard dans un test comprenant des items a quatre 
choix, nous n'avons pas inclus dans les donnees tout 
score Inferieur a 4. 

- BICAL: Nous avons demande au programme BICAL 
d'identifier les sujets qui montraient un indice 
d'inadequation eleve par rapport au modele de 
Rasch U < 2.0). La detection de ces cas est plus 
difficile et parfois impossible avec les logiciels qui 
font des analyses a trois parametres. De la sorte, on a 
retire 16 sujets du premier sous-test. 25 du deuxleme et 
37 du trolsieme. 
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- Les echeUes implicationneUes: Cliff { 1 983) a propose une 
serle d'indices permettant d'evaluer dans quelle mesure 
la distribution des reponses se conforme au modele 
implicationel de Guttman. II conclut que, sans rivaliser 
avec la puissance et Telegance des solutions obtenues 
avec la theorle du trait latent, cette approche est uUle et 
evite de devoir se fonder sur les postulats Tanalyse 
classique. Cliff et al (1978) ont meme propose d'uUliser 
ces echelles pour TadministraUon d'un test adaptatif. 
Nous avons mis au point le programme SCALE .afin de 
construire des echelles implicationneUes pour chaque 
sous-test. Le programme ordonne, d'une part, les items 
selon leur difficulte et, d'autre part, les sujets selon leur 
score. Les indices de la colonne de gauche indlquent la 
proportion de reponses de chaque sujet qui obeissent au 
modele implicationnel en tenant compte de Teffet du 
hasard; la demiere ligne du tableau foumlt le meme type 
d'indice au plan des items. Si le score etait inferieur a 13. 
c*est-a-dire en dega de ce qu'on obtient en repondant de 
fagon purement aleatoire, nous avons elimine tous les 
sujets qui presentaient des indices inferieurs .83. Si. 
comme c*etait generalement le cas, un sujet obtenait 13 
ou plus, nous ne Vavons elimine que si Tindice ne depas- 
sait pas .65. 

Apres repuration des donnees. il restait 314 sujets dans 
rechantillon d'analyse. En ce qui conceme Techantillon de cali- 
bration, on a conserve 695 sujets au premier sous-test. 683 au 
second et 66 1 au dernier. 



3.2.2 Uanalyse 

3.2.2. 1 Les statistiques generales 

Les corrections apportees au test original ont permis 
d'ameliorer la quallte de la mesure. Les moyennes, qui etaient un 
peu trop elevees, particullerement pour le premier sous-test, ont 
dimlnue Les variances qu'on esperalent voir augmenter surtout au 

lie 
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deuxleme sous-test ont effectlvement augmente. Pour avoir une idee 
Juste des hausses, 11 faut comparer radmlnistration de la version 
pre-experimentale a Saint-Georges en 1986 avec radmlnistration de 
la version experimentale dans le meme etabllssement Tannee 
suivante puisque le niveau des etudiants de Saint-Georges est 
legerement plus avance que celui de la majorite des autres etablis- 
sements qui participent au programme de bourses. Par alUeurs. 
nous savons que les caracterlstiques du groupe de Saint-Georges 
n'ont guere change d'une annee a Tautre. Le tableau 3.3 montre 
comment se comparent les moyennes et les ecarts types des deux 
administrations. 



TABLEAU 3.3 
Moyennes et ecarts types des versions 1 et 2 

1986: Version 1.1 1987: Version 2.2 





Moyenne Ecart-type 


Moyenne Ecart-type 


Ul Comprehension 
$2 Enonce appropri^ 
l»3 Phrases A trou 


34.22 9.33 
32.88 • 5.89 
31.19 8.71 


31.92 11.91 
31.19 8.84 
28.23 11.21 


Test complet 


98.22 22.73 


91.33 30.87 



Nous reproduisons les statlstlques generales dans le 
tableau 3.4. 



TABLEAU 3.4 
SUtistiques generales de la version 2 





»1 


»2 


»3 


TOTAL 


Max 1 mum 
Mi nimum 
Moyenne 
Var iance 
Ecart-type 
Fiabilit* 
Er reur-type 


50 
0 

29 .591 
141.123 

11.88 
0.928 
3 .18 


46 

0 

30 . 372 
66.546 
8.158 
0.850 
3.16 


46 

0 

25.756 
104.815 

10 .238 
0.904 
3.166 


139 
5 

85.720 
827.958 

28.774 
0.966 
5. 343 
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On note que la moyenne du sous-test #3 est nettement 
inferleure a celle des autres sous-tests. Cela tient a la fois a la dif- 
ficulte meme du test et au fait que certains sujets n'ont pas termine 
Tepreuve. On voit aussi que le sous- test #2 reste encore moins fiable 
que les deux autres bien que les changements Talent beaucoup 
ameliore. Le coefficient de fiabilite (KR-20) de la premiere et de la 
demiere partie depass^e .9, ce qui est plus que satlsfaisant avec 50. 
items. La fiabilite generale se situe a .97. Ce chiffre correspond a ce 
que Davidson (1988) a calcule avec un echantillon de 5 000 sujets au 
TOEFL de 1985 (146 items). Cela depasse meme la fiabilite d'un 
instrument comme le CanTESr( 153 items) qui a ete utilise avec des 
etudiants chinois en sejour au Canada et dont la marge d'erreur 
s*est avere tout a fait acceptable (DesBrlsay, communication 
personnelle). Enfin, il convient de souligner le fait que Terreur type 
est identique d*un sous-test a Tautre, soit 3.2. 

TABLEAU 3.5 
Moyennes et ecarts types des deux echantillons 

Echantillon Echantillon 
d'analyse de calibration 





Moyenne Ecar t-type 


Moyenne Ecart-type 


l#l Comprehension 
U2 Enonc6 appropri6 
113 Phrases A trou 


29.60 11.88 
30.37 8.16 
. 25.75 10.23 


30.96 11.60 
31.19 8.23 
26.26 10.37 


Test complet 


86.1 29.01 


85.72 28.77 



Comme le montre le tableau 3.5, les moyennes sont lege- 
rement superieures (peut-etre a la suite de Tinclusion des post-tests 
de York) et les variances sont comparables. Quant aux coefficients 
de fiabilite des deux echantillons, ils sont egaux. 

3.2.2,2 Les correlations 

3.2,2,2,1 Les correlations entre les sous-tests 

^amelioration de la fiabilite que nous avons constatee 
implique une reduction de la marge d*erreur. Or comme les erreurs 
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de mesure de differents tests ont la propriete de ne pas etre 
coirelees. on pcut penser que les correlations cntre sous-tests 
augmenteront. De fait, en cxamlnant les correlations du tableau 3.6, 
on voit que celles-ci ont a peine augmente. Certes, la corre- 
lation entre les premiere et deuxleme parties a augmente mais celle 
entre les deuxleme et troisieme parties a diminue un peu. II faut 
examiner la matrice des variances et covariances pour constater 
Tamelioration entre les deux versions du test. Comme auparavant, 
le sous-test #1 montre le maximum de variance et le sous-test 
#2 le minimum de variance; cependant, les covariances ont 
augmente partout. 



TABLEAU 3.6 
Correlatioiis. et corariAnces entre 
les sous-tests de la Tersion 2 



a) Covariances entre les scores 





« 1 #2 #3 


#1 Comprehension 
#2 Enonc6 appropri* 
»3 Phrases ^ trous 


130.379 76.106 98.459 
76.106 60.389 62.098 
98.459 62.098 97.128 


b) Correlations: coefficient r de Pearson 




i 1 2 » 3 


#1 Comprehension 
$2 Enonce approprie 
#3 Phrases ^ trou 


1 .000 0 .858 0.875 
0.858 1.000 0.811 
0.875 0.811 1.000 


c) Carres des 


coefficients de correlation 




» 1 #2 » 3 


#1 Comprehension 

Enonce approprie 
»3 Phrases ^ trou 


1.000 0.736 0.766 
0.736 • 1.000 0.657 
0.766 0.657 1.000 



Par alllcurs. U est difflclle de trouvcr des correlations plus 
clevees comptc tcnu des coefficients de fiabillte qui ont etc 
calcules. En cffct, en appllquant la formule de correction pour 
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rattenuatio'i, formule creee dans le cadre de la theone clas- 
slque, on trouve des correlations entre les scores verltables qui 
s'approchent et meme depassent la limite theorique de 1. L'equation 
a la forme sutvante: 



Entre le premier sous-test et le second, on obtient un 
coefficient de .97. entre le premier et le troisieme. un coeffi- 
cient de 1.04 et enfin. entre le second et le troisieme. un coefficient 
de 1.06. Ces resultats pour le moins surprenants indiquent proba- 
blement une estimation trop conservatrice des indices de flabi- 
lite mais suggerent aussi que les trois sous-tests evaluent un 
facteur commun. 



3.2.2.2,2 Uanalyse de USREL 

Afin d'explorer la structure factorlelle du test nous 
avons cherche a verifier la coherence interne des sous- 
tests et a detemiiner si Thypothese de tests congeneriques 
pouvait etre retenue (JSreskog 1971, Linn et Werts 1979). 
Pour definir le test congenerique, nous definissons les 
variables suivantes: 

: Le score observe pour le sujet a au test j 

: La moyenne du test j 

: Lc coefficient de regression dc Xj sur T 
Ta : Le score veritable mormalise 
E.^ : L'erreur normalisee 
n : Le nonibre de sujcts 

Nous posons comme equation de base au test congenerique, 
Tequation 3.2: 

X^j « Hj + bjT* + E^j (3.7) 

Dans le cas ou les deux tests J et J\ mesurent la meme 
variable latente T. on a aussi Tequation 3.3: 

X*j' = Mj- + bj-Tm + E.J. (3.3) 
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Par allleurs. on obtlent la sommation des produits ainsi: 

S'il s'agit de test paralleles, j = J* et 3.4 se reduit a 
requation 3.5: 

E^X.j X^j. = nMj« + nbj«a^« + na^« (3,5) 

Le programme USREL^ (Joreskog et Sorbom 1983) est 
essentiellement congu en vue d'analyses conflrmatoires bien 
que rayons utilise dans une perspective exploratoire. Nous 
vou lions en effet verifier le modele le plus simple (un facteur 
unique) et aj outer progressivement des composcintes jusqu'a ce 
que le modele soit satisfaisant. USREL nous permettait de 
poursuivre Tanalyse Jusqu'au test congenerlque le plus 
complexe. De fait. USREL est un programme qui sert a Testi- 
matlon des coefficients dans des equations structurales 
lineaires dont les applications sont tres varices (Everltt 1984). 
Ainsi. Nelson et aL (1984) ont utilise USREL afin de validerun 
modele d'acquisitlon a partlr de resultats de tests. Le pro- 
gramme utilise des variables observables (des resultats de test, 
par exemple) et des variables latentes (les scores verltables. 
par exemple). II permet de mesurer ces variables de meme que 
Terreur de la mesure qui leur est associee. Ce modele postule 
qu'il y a un lien causal entre les variables observables et les 
variables latentes qui leur sont sous-jacentes. 

On utilise les symboles sutvants pour designer un ensemble 
de vecteurs et de matrices: 

e et 6 : vecteurs d>rreurs de mesure (non correlle avec 
T| nl avec 

5 : vecteur de valeurs residuelles (non correlle avec 



* Lc programme USREL est InstaJIc sur Tordlna r VAX dc TlnsLUut d etudes 
pcdagoglqucs de TOntarlo. 
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ct : matrices de coefficients de regression de y su - t) 
et de X sur ^, respectlvement; 

r| et ^ : matrices de variables latentes; 

B et r : matrices de coefficients reliant t) a t]* et t) a ^, 
respectlvement 

Ces symboles servent a deflnir deux types de modeles 

- le modfele de 1' Equation structurale: rj* = Bi^ + r< +^ (3.6) 

- les modules de mesure, pour y: y = Ay + e (3.7a) 

pour x: X = Ax +6 (3.7b) 

L/SREL etablit une matrlce de covarlance I dont les elements 
sont fonctlons des matrices de coelllclents C^y, '^x, B et T), des 
matrices de variables de Tequation structurale [t] et ^) et des 
matrices des erreurs de mesure (e et 5). 

Nous avons d'abord dlvlse chaque sous-test en deux parties 
de 25 items chacune dans Tintention de calculer les correlations 
entre les scores obtenus a chaque moitie de chaque sous- test. D'une 
part, le fait de disposer de six variables plutot que de trois augmen- 
tait le nombre de degres de liberte. D'autre part, on pouvait.alnsi 
verifier la coherence interne de chaque sous-test. Nous aurions pu 
dlviser les sous-tests entre items faciles et items difflciles mals 
un facteur de difBculte aurait obscurci les resultats. Nous 
aurions pu aussi comparer les 25 premiers items aux 25 demiers 
mais un facteur dc lassitude aurait pu intervenir. Nous avons 
finalement decider de separer les items designes par un nombre 
impair et de ceux designes par un nombre pair. On a done reuni les 
items 1, 3 ... 49 de chaque sous-test puis les items 2, 4 ... 50. Le 
tableau 7 montre les correlations entre les scores que nous avons 
obtenues avec COREVAR 

En examinant la matrice, on voit que les moities de chaque 
sous-tests sont fortement correlees (r >,99). Ces valeurs donnent une 
idee d'une autre forme de flabllite (Split-half reliability, Guttman 
1945) dont elles representent en fait une estimation conservatrice, 
car elles n*ont pas ete calculees en conslderant la longueur 
totale du test. 
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TABLEAU 3,7 
Correlations entre items pairs et impairs 







1 1 


COMPR 


12 ENAPP 


•3 TROUS 




Items 


Impa irs 


Pairs 


Impairs 


Pairs 


Impairs 


Pairs 


11 


Impa ics 


1.000 


0.996 


0.857 


0,857 


0.873 


0.873 


HI 


Pairs 


0.996 


1.000 


0.853 


0.853 


0.873 


0.873 


12 


Impales 


0 .857 


0.853 


1.000 


0.992 


0.809 


0.811 


12 


Pairs 


0.857 


0.853 


0.992 


1.000 


0.805 


0.808 


»3 


Iropa irs 


0.873 


0.873 


0.809 


0.805 


1.000 


1.000 


13 


Pairs 


0.873 


0.873 


0.811 


0,808 


0.995 


1.000 



Comme toutes ces valeurs depassent les coefficients KR- 
20 que nous avons calcules, on peut penser qu'un facteur exteme. 
tel la fatigue, a pu affecter le calcul de la fiabillte selon la 
formule de Kuder et Richardson. II apparait done justlfie de 
postuler le parallelisme entre les deux parties de chaque sous-test 
puisque les deux parties semblent mesurer la ou les memels) 
habUete(s). 

Selon la suggestion de McDonald (1985), nous avons d'abord 
cherche a verifier le modele qui nous semblait le plus probable et qui 
en memc temps etsiit sans doute le plus simple. 11 s'agit d'un modele 
d'analyse factorlelle c*est-a-dire un modele qui ne comporte pas 
d'equatlon structurale et un seul modele de mesure definit par la 
simple equation: 

X « Ax^ + <5 (3.9) 

La premiere hypothese que nous posons restreint le modele 
a un seul facteur, soit une seule variable E. La figure 3.5 montre le 
schema correspondant au modele. La direction des fleches Indique 
que les variables observables sont affectees par la variable latente et 
par I'erreur de mesure tandis que les lignes doubles montrent que 
les elements ne sont pas significatlvement difi*erents (pcurallelisme). 
En soumettant cette premiere hypothese au programme USREL, 
nous nous sommes apergu qu'elle ignorait une bonne portion de la 
variance et de la covarlance et qu*une fois le premier sous-test ajuste 
au modele, il restait pour les deux autres sous-tests, des valeurs 
residuelles importantes qui rendaient ce modele peu adequat. 
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Avant de passer au modele congenerlque, nous avons voulu 
verifier une seconde hypothese qui falsalt aussi appel a un modele 
de l*analyse factorielle. Plutot que de contraindre les donnees a 
facteur unique nous avons postule trois facteurs fortement correles. 
Dans la figure 3.6. qui illustre ce modele, les fleches bi-direction- 
nelles indiquent une influence reciproque entre les variables 
latentes. L'examen des estimations de LTSREL montre que ce modele 
s*avere tres juste. De fait, on peut se demander s*il ne s'agit pas 
d*une solution trop parfaite pour etre generalisable a d'autres tests 
de langue. 11 semblait done inutile de faire intervenir d'autres 
variables a ce moment-ci. D'autre part, on s'apergoit que les 
correlations entre les facteurs sont tres elevees puisqu'elles varlent 
entre .81 et .87. 

La solution oblique est juste mais elle n'est pas tout 
a fait satisfaisante dans la mesure ou elle laisse inexpliquee la 
variance commune entre les facteurs. Un modele congenerlque 
aurait peut-etre pu contribuer a preciser davantage la relation 
entre les elements mais nous avons ete incapable de trouver une 
solution adequate en utilisant le modele congenerique. L'addition 
d'autres mesures dans la matrlce aurait pu peut-etre servir a mettre 
au point un tel modele mais il s*agit la d'une tache qui depasse les 



Uelaboration du test ^papier-crayon* 



buts de la prescnte recherche. Par ailleurs, il faut bien se rendre 
compte que cc type de soluUon ou les facteurs specifiques a une 
tAche langagiere sont en correlation avec les facteurs relies a 
d'autres taches est sans doutc cc a quoi il faut s'attendre dans les 
tests de langue. II scmblc blen qu'en cc qui conceme la performance 
communicative, peu importc les dlstincUons qu'on aura etablies, les 
aspects degages seront toujours Imbrlques les uns aux autres. 



FIGURE 3.6 
Schema d*un module de tesU paralleies 
arec troU facteurs 




Dans le cas du test que nous mettons au point, cette analyse 
se revele uUle a deux points de vue. D'une part, elle nous assure que 
chaque sous-test presente une excellente coherence interne. II faut 
noter que cela ne garantit pas Tunidimensionalite de chaque sous- 
test. Neanmoins. on peut penser qu*a ia suite d*une etude approfon- 
die des correlaUons entre les items, ou Ton arriverait a neutraUser 
reffet du facteur de difflculte, on pourrait expliquer la variance a 
raide d'un facteur dominant. Compte tenu de Tobjectif de notre 
demarche, une telle analyse ne nous apparaissait pas necessalre car 
des recherches sur les tests de langue, dans le cadre de la theorie du 
trait latent, ont deja demontre que des tests qui presentent une 
bonne coherence interne p-^nnettent une parametrisation flable 
(Henning 1984, Henning et oL 1981. Cook et ai 1988, Davidson 
1988). II apparait egalement que. dans notre cas, chaque sous-test 
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comporte unc variance speclflque de sorte qu'il seralt imprudent 
d'integrer tous les items dans une seule banque. II convient done de 
proceder a une calibration independante pour chaque sous-test. 
D'autre part, le fait que les scores des sous-tests de m6me que les 
facteurs qui les sous-tendent soient correles demontre qu'il est 
raisonnable d'esperer obtenlr un indice de la maitrise generale en 
combinant les resultats de chaque partie du test. 

3.2.2.2.3 Correlations avec d'autres mesures 

Nous avons retenu 51 etudiants de TUniversite Laiirentienne 
pour lesquels nous avions plusieurs mesures valables a mettre en 
correlation. Outre les trois parties du test experimental, nous avions 
a notre disposition les resultats du test Laval et Tassignatlon 
definitive a un des cinq groupes-classes du programme. De plus, lors 
du test, on demandalt aux etudiants d'identifier le niveau auquel lis 
estlmalent appartenir parmi les sept niveaux que nous avons 
reconnus; on leur demandalt aussi d'indiquer le nombre d'annees 
d'apprenUssage du frangais a Tecole secondalre et/ou dans un 
etablissement post-secondaire. Toutes ces mesures peuvent etre 
considerees comme des mesures a intervalles et peuvent done etre 
comparees entre elles. Le tableau 3.8 donne les moyennes et les 
ecarts types calcules pour chacune de ces mesures. Le test experi- 
mental a ete admlnlstie a la deuxieme semalne d'une session 
intensive de six semalnes. Les variances (comme les coefflcients de 
correlation, du reste) sont en general legerement moins elevees que 
celles de Tensemble de rechantillon d'analyse. 



TABLEAU 3.8 
Moyennes et ecarts types 
des mesures concurrentes de la Tersion 2 





Moyenne 


Ecar t 


-type 


LAVAL: 


Test Laval (trols parties) 


62 


33 


29 . 


98 


COMPR : 


HI Compr^hens ion 


29 


96 


10. 


87 


ENAPP : 


$2 Enonc6 appropri^ 


29 


75 


7 . 


83 


TROUS : 


*3 Phrases A trou 


27 


59 


8. 


34 


GROUPE 


: Assignation (5 groupes) 


3 


09 


1. 


41 


AUTO: 


Auto~6valuation(7 categories) 


3 


51 


1. 


65 


SCOL: 


Scolarite (Nombre d'ann^es) 


3 


65 


2. 


31 
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Le classement initial des etudiants s'est effectue avec le test 
LavaL Ce test comprend trols sections composees de questions a 
cholx multiple: phonetlque (30 items), grammaire (75 items) et 
vocabulalre {50 items). Bien que base sur une approche a elements 
discrets qui a de moins en molns la faveur des enseignants. la 
commodite du test Laval explique pourquoi 11 continue d'etre aussi 
populalre dans des programmes comme celui de la Laurentienne. Au 
debut de la session, avant que nous n'adminlstrlons le test ex- 
perimental, le directeur pedagogique avait du changer 24% des 
etudiants de groupe. le plus souvent a cause d'erreurs de classe- 
ment. Las assignations dont nous tenons compte (GROUPE) refletent 
le classement apres les changements mais 11 faut neanmoins s'at- 
tendre a ce que ces assignations soient assez fortement correles avec 
le test LavaL Alnsi que le montre le tableau 3.9. c'est d'ailleurs avec 
les assignations que le score du test Laval presente le coefficient de 
correlation le plus eleve. Malgre le nombre restrelnt de sujets. toutes 
les correlations sont signlficatlves (p <.O01). La correlation la plus 
elevee s'observe entre Tauto-evaluation (AUTO) et Tassignatlon finale 
(GROUPE). Cela s'explique autant par le nombre limite de niveaux 
(5 et 7) que par le fait que les etudiants. une fois les changements de 
groupe effectues. estiment que le groupe auquel Us appartiennent est 
celui qui correspond effectivement a leur niveau. 



TABLEAU 3.9 
Correlations entre les mestires conctxrrentes 





LAVAL 


COMPR 


ENAPP 


TROUS 


AUTO 


SCOL 


GROUPE 


LAVAL 


1.000 


.746 


.610 


.649 


.753 


.559 


.879 


COMPR 


.746 


1.000 


.819 


.854 


.829 


,618 


.868 


ENAPP 


.610 


.819 


1.000 


.780 


.750 


,658 


.772 


TROUS 


.650 


.854 


.780 


1.000 


.866 


.675 


.825 


AUTO 


.753 


.829 


.750 


.865 


1.000 


.644 


.916 


SCOL 


.559 


. 618 


.658 


.675 


.644 


1.000 


.694 


GROUPE 


.879 


.868 


.772 


.825 


.916 


.694 


1.000 



Ce qui etonne toutefois. c'est que la correlation entre Tauto- 
evaluation et les scores du test LavaL celui-la meme qui a servi au 
classement initial, soit si faible. De fait, de ce point de vue. ce sont 
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les scores des sous-tests #1 (COMPR) ct #3 (TROUS) qui seraient les 
meilleurs predicteurs puisqu'ils montrent des correlations elevees a 
la fois avec Tauto-evaluaUon et I'assignaUon. Lc sous-test #2 
(ENAPP). de par son contenu ct une flabilite plus faible. engendre 
des correlaUons relativement peu elevees. Fnfin. lc nombre d'annees 
d-apprenUssagc du frangais a I'ecole (SCOL) semble un predicteur 
plutot mediocre de sorte qu'il faudrait Tutiliser avec prudence lors de 
Testimation du niveau general d'un etudiant. 

Afin de completer ces premieres etudes sur la valldite du test, 
nous avons voulu voir comment, a Tinterieur d'un groupe d'etu- 
diants. le score au test se comparait avec revaluation du professeur, 
Cela nous semblait d'autant plus important que c'est generalement 
le Jugement des professeurs qui sert a rectifier les erreurs de 
classement. C'est pourquoi. lorsque c'etait possible, nous remetUons 
aux professeurs une feuUle sur laquellc Us devaient dresser la liste 
ce leurs etudiants en les ordonnant a partir du moins avance 
jusqu'au plus avance. On ne leur foumissait pas de criteres par- 
UcuUers. mais on leur demandait d'assigner un rang en prenant en 
consideraUon autant la maitrise generale que les objectifs de leur 
cours et ce apres au moins une semaine de cours (minimum de 25 
heures). Comme les groupes depassent rarement une quinzaine 
d-apprenants, rexercice est tout a fait realisable et plusieurs 
professeurs s*y sont pretes. 

Pourtant. il faut toutefois s'attendre a des correlations ni tres 
elevees. ni tres significaUves. D'abord. on a observe que si les 
professeurs s'entendent pour remettre en question un instrument de 
classement. Tunanimite disparait quand il s'aglt de s'entendre sur 
ce qui est prloritaire et ce qui Test moins (Laurier 1984). En falsant 
ranalyse de la vaUdite concurrente de tests de comprehension 
auditive. Groot (1975) a observe des ecarts importants entre les 
Jugements des enseignants. Alderson (1990) slgnale egalement que 
les Jugements d*«experts» sont souvent contradictoires. Pour cette 
raison. il ne faut pas s'etonner quUl y ait des differences notables 
entre les coefficients de chaque groupe ct qu'on retrouve meme des 
correlations negaUves. Ensuite. on effectue des distincUons a Tinte- 
rieur d'une gamme tres etroite d'habiletc. une gamme souvent meme 
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plus etroite que rintervalle de conflance defini par rerreur de mQ3ure 
du test. Cela cxplique en parUe le fait que les coefficients ne 
depassent guerc .7. Enfln, on etablit des correlaUons a partir d'un 
nombre restreint de sujets (environ 15), ce qui a pour effet de 
diminuer considerablement les probabilites de trouver des correla- 
Uons significatives. De fait, il n'est pas du tout certain que les 
correlations de rang permettent de bien saisir Taccord (ou le 
disaccord) entre le test et le Jugement du professeur. II seralt sans 
doute souhaitable, dans une etude ulterieure, de completer avec une 
procedure similalre a celle de Magnan (1987) pour Tentrevue et de 
calculer le coefficient kappadt Cohen, Berry et Mielke (1988) ont en 
effet demontre la robustesse de cet indice et son application avec des 
mesures ordinales, 

Ces conrelaUons ont ete etablies en comparant le rang 
assigne par le professeur et celui qu'on obtenalt a partir du score 
brut a chaque sous-test, Toutefois. afin d'obtenir des indices plus 
precis, U nous semblait approprie de considerer plutot la moyenne 
des coirelations pour chaque partie, Afin d'eviter une distorsion des 
indices a la suite des operaUons arithmetiques qu*implique le calcul 
des moyennes, on a appUque la transformation du Z de Fisher, 
calcule les moyennes puis reconverts On obtient ainsi une corre- 
lation de .44 pour le sous-test de comprehension, .33 pour le choix 
de renonce approprie et .37 pour les phrases a trou. Compte tenu 
des facteurs que nous avons signales plus haut, une correlation 
superieure a .4 doit etre interpretee comme Tindice d une bonne 
correspondance entre les deux mesures. 

On peut done conclure avec ces premieres donnees sur la 
validite du test que le premier sous-test s^avere le plus valide. 11 
s'agit la de resultats provisoires car, comme le font remarquer Allen 
et Yen (1979:108), Tanalyse de la validite d'un test est un travail a 
long terme qui progresse a mesure que s'accumulent les resultats 
d'epreuves concurrentes et les observations des utiUsateurs. 

3,2.2.3 Analyse des items 

En consultant la distribuUon des reponses que foumit 
CORREC et les coefficients de probabilite, on note que la represen- 
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tation de chaque niveau s*est amelioree car il y a nettement plus 
d'ltems dlfflciles et un peu plus d'ltems faciles. Toutefois ritem 
22 du deuxieme sous-test (P = .06) et ritem 35 du troisieme 
sous-test (P =.09) sont nettement trop dlfficlles et devront sans doute 
etre retires. 

Comme pour la version pre-experlmentale, nous avons 
soumis les resultats de Techantillon d'analyse au programme 
LEFTAP afin d'evaluer la discrimination de chaque item. Ce qui 
ressort en premier lieu, c'est que la paitle de comprehension 
conUent d'excellents items du point de vue de leur discrimination 
alors que le choix de Tenonce approprie presente plusieurs items 
medlocres. Alnsi le sous-test #1 regroupe pas molns de 14 items 
dont le coefficient de correlaUon point-biserielle depasse .5 et le 
coefficient de correlation biserielle depasse ,75. Parmi ceux-ci, les 
items 24. 25. 27, 36, 39 et 50 ont des correlations point-biserielles 
et biserielles superieures a .6 et .8, respectivement. On ne peut en 
dire autant du sous-test #2 ou la norme .5 /.75 n'est depasse, a 
peine, que par les items 34 et 40; les items 5 et 19 s'approchent de 
ce seuU. Les items de la partle des phrases lacunaires sont staUs- 
Uquement assez valables bien que la grande difficulte de certains 
affecte probablement leur discrimination. On compte 9 items qui 
depassent la norme des .5 /.75; les items 6, 20 et 42 presentent 
meme des coefficients superieurs a .6 et .8. 

Nous avons aussi cherche a identifier les items qui mon- 
txaient des caracteristiques statistiques molns reluisantes. Afin de 
completer nos donnees sur les items douteux, nous avons soumis 
les reponses de TechanUllon d*analyse au programme B/CAL, non 
pas pour la parametrisation mais pour tenir compte des indices 
d'adequation au modele de Rasch que foumit ce loglcieL A ce 
moment, il ne s'aglssait plus d'eliminer des items ou d'en modifier 
car nous comptions effectuer une premiere calibration avec un 
modele a trols parametres en soumettant les 50 Items de chaque 
sous-test. Toutefois, il etalt important de reunir des donnees pour 
corroborer les resultats de la calibration advenant rellmlnaUon de 
mauvais items lors de la calibration finale. D'autre part, nous 
voulions constituer une llste litems susceptlbles de ne pas appa- 
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raitxe dans les deux versions «papier-crayon» du test. Le tableau 3, 10 
montre les indices dont nous avons tenu compte pour les items 
douteux du premier sous-test. 



TABLEAU 3.10 
Items doutcuz du sous-test # 1 



I tern 


SCALE 


LERTAP 




BICXL 




CORREC 


ft 


Indice 




■it « 


Disc. 


Test T 


Prob . 


10 


.93 


. 28 


48 


.66 




10 


.91 


11 


.72 


. 36 


46 


.72 


2 


85 


.40 


13 


.72 


.46 


69 


.67 


3 


76 • 


.40 


21 


.70 


. 39 


60 


. 49 


5 


04 


.35 


30 


.67 


.46 


67 


.63 




08 


. 36 


31 


.67 


.36 


44 


. 49 


5 


66 


.46 


40 


.69 


.41 


61 


.77 


2 


49 


.46 


47 


.83 


.29 


41 


.66 


2 


49 


.78 


49 


.63 


.33 


41 


.31 


7 


31 


.47 



Les chiffres souUgnes signalent les problemes les plus 
serleux. On remarque que dans le sous-test #1, seulement deux 
items, le 10 et le 49, presentalent des correlations point-biserielles 
inferleures a .3. Par centre, comme en fait foi le tableau 3.1 1, nous 
en avons identifie 15 au sous-test #2. Les items 1 1, 21, 22, 29 et 31 
semblaient discriminer particulierement mal. 



TABLEAU 3,11 
Items douteuz du sous-test #2 



Item 


I nd ice 


LERTAP 


BICAL 




CORREC 


• 


SCALE 






Disc . 


Test T 


Prob. 


1 


.70 


.27 


. 34 


.85 




78 


.35 


7 


.76 


.18 


.26 


.60 


1 


73 


.79 


8 


.69 


.17 


.23 


.62 


1 


74 


.34 


11 


.69 




.16 


. 49 




08 


.30 


21 


.66 


ai 


.17 


.17 


4_ 


22 


.31 


22 


.91 


0 


0 


.68 




12 


.06 


26 


.86 


.24 


. 37 


.82 




02 


.87 


27 


.66 


.23 


. 29 


.76 




28 


.46 


28 


.70 




. 37 


1.04 




36 


.40 


29 


.67 


.11 




.45 


3 


86 


.70 


31 


.64 


.09 


jj. 


. 16 


4 


56 


.67 


36 


.67 


.25 


.31 


.61 


3 


25 


.66 


37 


.71 


. 29 


. 30 


.62 




35 


.65 


41 


.66 


.31 


. 3<^ 


.81 


1 


.30 


.3^ 


44 


.67 


.27 


. 34 


.74 


1 


72 


.47 


46 


.66 


.34 


.43 


.90 




.34 


. 50 


47 


.65 






.62 


3 


.25 


.43 
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TABLEAU 3.12 
Items douteux du sou«-tett #3 



Item 
» 


Indice 
SCALE 


LERTAP 


BICAL 
Disc. Test T 


CORREC 
Prob. 


2 


.69 


.31 


.39 


.73 


2.75 


.45 


3 


.71 


.33 


.42 


.73 


2.5? 


.45 


7 


.68 


.40 


.51 


.54 


4.53 


.47 


8 


.69 


.42 


.53 


.75 


2.43 


.43 


13 


.69 


.40 


.50 


.61 


3,27 


.55 


16 


.86 


.17 


.28 


.83 


-.08 


.11 


17 


.54 


-.01 


.01 


-.32 


i;.81 


.43 


35 


.86 


-.09 


-.15 


.44 


1.21 


.09 


37 


. 79 


.26 


. 38 


• .77 


.98 


.19 


33 


.72 


.35 


.46 


.63 


3.11 


.29 


48 


,72 


.07 




.31 


3.46 


.18 



Enfln, nous n'avons trouve que 4 coefficients de correlation 
point-biserlelle inferleurs a .3 au sous-test #3 (tableau 3.12); il faut 
noter cependant que deux d'entre eux. le 17 et le 35, montralent une 
correlation legerement negative. 

3.2,2.4 Calibration des items 

L'operation de calibration des items revient a faire corres- 
pondre une courbe logistique a un ensemble de points obtenus a 
partir des donnecs. Les parametrcs alnsi obtenus determinent 
requatlon reliant Thabilete d*un sujet avec le score obtenu a un item. 

3.2.2,4.1 La procedure de calibration 

A rinstar de Yen (1983), nous comptions utiliser pour la 
calibration definitive un modele a trols parametres. Lorsque nous 
avons lance la presente recherche, nous avions prevu utiliser le 
programme le plus populalre et le plus accessible a cette epoque 
pour la calibration a trois parametres, le programme LOGIST 
(Wingersky et ai 1982). Ce loglciel mis au point par le Educa- 
tional Testing Service, etait installe sur Tordinateur VAX de Tlnstitut 
d'Etudes pegagogiques de TOntario. Comme il fonctionne sur un 
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ordinateur central et que son execution est assez longue, 11 est 
couteux a utiliser. De plus. 11 demande une certaine famllia- 
risaUon de Tusager qui doit intcrvenir pour specifier le cadre 
de la parametrlsatlon. Ccs inconvenients font toutefois partic du 
prlx a T>ayer pour un Instrument souple et puissant. 

Le programme fait restlmatlon des parametres des items et 
de rhabUete des sujets en suivant une procedure par maximum de 
vraisemblance. II distingue entre les items dont les reponses ont ete 
omises ou annulees (considerees comme incorrectes) et ceux 
auxquels le sujet n'a pas eu le temps de repondre (non retenus pour 
la calibration). Uusager doit s'assurer d'avoir retire les sujets dont 
le score etait nul ou parfait; de meme les items dont les reponses 
sont toutes incorrectes ou correctes doivent etre elimlnes. La calibra- 
tion se fait en quatre etapes. A la premiere et a la troisleme etape on 
fait restlmation des valeurs qui dotvent etre placees sur une echelle 
commune (rorigine est indeterminee): ThabUete des sujets et la 
difflculte des items. A la deuxieme et a la troisieme etape on fixe 
rhabilete et on estime les trois parametres des items. La procedure 
est iterative c'est-a-dire qu'on repete Toperation a partir des 
demieres valeurs obtenues et ce. Jusqu'a ce que le changement 
d'une Iteration a Tautre soit inferieur a un seuil pre-determine (par 
Tusager ou par le programme). 

Les essais que nous avons menes avec LOGIST a Tlnstitut 
d'etudes pedagogiques de TOntarlo se sont averes fructueux avec 
rechantillon d'analyse. Pourtant. il nous a ete impossible d'obtenir 
des resultats avec rechantillon de calibration; il semblait que lorsque 
rechantillon devenait trop grand le programme perdait une partie de 
rinformation. Nous avons done renonce a utiliser cette version de 
LOG/ST d'autant plus que d'autres problemes rapportes par Vetterli 
(1987) nous auraient probablement amene a eliminer plusleurs 
items que nous voulions conserver. 

Nous nous sommes alors toumes vers un nouveau produit 
qui venait de faire son apparition sur le marche des logiciels pour 
micro-ordinateurs et qui etait disponible a notre lieu de travail, le 
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programme ASCAL (Assessment System Corp. 1987)^. Ce pro- 
gramme fait parUe d'une batterle de loglciels congus pour Telabora- 
Uon de tests convenUonnels ou adaptatlfs. Par rapport a LOGIST 
ASCAL gagne en slmpUclte d'utillsaUon ce qu'il perd en flexibilite. 
Cependant comme nous menlons une parametrlsaUon standard, ce 
loglciel etalt parfaltement approprie. De plus, une etude de Vale et 
Gialluca (1988) a demontre la superiorlte de ASCAL par rapport a 
LOG/ST parUculierement pour TestimaUon du facteur de hasard ou 
lorsque TechanUllon regroupe moins d'un millier de sujets. De fait, 
ralgorithme de ASCAL s'apparente a celul de LOGIST. mais il Integre 
des prlnclpes d'analyse bayeslenne. Ainsi, on amorce TestlmaUon 
finale a partir d'estimaUons iniUales elles-memes obtenues en 
utiUsant des procedures heurlstiques tradiUonnelles: on suppose 
une distribution noimale de a et b et on fixe c a la reciproque du 
nombre d'opUons de reponse. Ces estimations inltiales seivent a 
obtenir une premiere estimation de rhabilete des sujets pour laquelle 
on postule une distribuUon normale. Cette distribuUon est divisee en 
20 groupes qui serviront au calcul final de a et c selon une proce- 
dure bayesienne ou ces valeurs ont, au depart, une distribution 
beta. Quant au parametre c, il est obtenu par une procedure 
uUUsant le maximum de vraisemblance. La division en 20 groupes 
sert egalement au calcul d'un indice de Tadequation de chaque item: 
on effectue le test du chi-carre sur les valeurs residuelles dans 
chaque groupe. Get indice doit etre interprete en regard des indices 
obtenus aux autres items, une valeur beaucoup plus grande 
indiquant TinadequaUon de Titem. La procedure est iterative et 
s'arrete quand le changement d'une iteration a I'autre devient 
marginal ou qu'on a atteint le nombre maximal d'lteraUons. II faut 
noter que comme le programme fonctionne avec un mlcro-ordi- 
nateur, une telle caUbraUon peut prendre plusieurs heures. 

3.2.2.4.2 La premiere calibration 
La structure factorielle que nous avions degagee avec le 
programme LTSREL nous incltait a la prudence de sorte que chaque 



^ Nous rcmcrclons Stan Jones dc TUnlvcrsltc Carlelon pour nous avoir pcrmls 
d utlhscr Ic systcmc MicroCAT insUxWc au dcpartcmcnt dc llnfiulstlquc. 
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sous-test a ete calibre Independamment. Nous avons, dans un 
premier temps, soumis tous les Items pour tous les sujets qui 
avaient ete conserves. Nous esperlons Icl evlter de retlrer des items 
qui malgre un pietre rendement en regard des statistlques tradition- 
nelles auralent pu etre juges beaucoup plus favorablement dai";s le 
cadre d'une analyse du trait latent. La fonctlon de la premiere 
calibration etait done de servir d'analyse confirmatoire en vue de 
Telimination des items moins efflcaces. Nous nous sommes alors 
inspire des lignes directrices etablies par Urry (1977) pour fonder 
nos jugements sur la valeur de chaque item dans le cadre de la 
theorie du trait latent. 

A la suite de Tanalyse des items et de la premiere calibration, 
nous avons decide de retirer quatre items du premier sous-test: les 
items 10, 31, 47 et 49. Les items 10 (mode d'emploi d'un cafe 
instantane), 47 (une carte postale a un ami) nous semblaient fort 
interessants du point de vue de leur contenu, mais n'ont pu etre 
consep/es en raison de leurs pauvres caracteristiques psychome- 
triques. Au deuxieme sous-test, nous avons retire une douzaine 
d'items (les items 7, 8, 11. 21, 22, 26, 27, 29, 31. 35, 37 et 47). 
Certains d'entre eux referalent a des notions ou des fonctions que 
nous aurions bien aime voir figurer dans le contenu du test: 
suggerer (8 et 21), s'excuser (11 et 47), demander du feu (27) et 
lalsser un message au telephone (7). Nous nous sommes rendu 
compte combien il etait difilcile de creer de bons items pour mesurer 
ces fonctions et ces notions. Enfln, au troisieme sous-test, nous 
sommes departis de huit items (les items 7, 9, 16. 17, 35, 37, 47 et 
48) dont un d'entre eux a regret. En effet, Titem 47 evaluait un 
element qui nous semblait devoir etre verlfie au niveau avance: 
Tusage des pronoms relatifs. 

3.2.2.4.3 La deuxieme calibration 

Nous avons precede a une autre calibraUon en excluant les 
items qui ne f'-valent pas etre integres a la banque. De cette 
fagon, on s'assurait que les parametres soient le plus precis possible. 
Ce sont ces resultats que nous avons utilises par la suite. 
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On peut voir en comparant les deux calibrations que, sans 
etre tout a fait Identlques, les parametres n'ont pas change 
sensiblement, Alnsi qu'il fallalt s'y attendre, c'est le sous-test de 
comprehension qui presente les coefficients de discrimination les 
plus eleves (parametre a) et le choix de Tenonce approprie qui 
presente les coefficients de discrimination les plus bas. Dans les 
trois tests, on observe une distribution du niveau de diff'iculte qui 
devralt convenir aux fins que nous poursulvons avec ce test, De 
plus, Tindice du chi-carre temoigne du fait que tous les Items 
retenus lors de cette demiere calibration cadrent blen avec le modele 
a trois parametres. Enfinv 11 faut noter qu'au terme de la calibration 
tous les Items avaient converge; de fait, les seuls Items qui ont pose 
des problemes au cours de la seconde calibration sont les deux 
demlers items du sous-test #3. 

3.2,3 La mise au point des versions equivalentes 

II est Clair que la version 2.2 du test posait des problemes 
d'administration importants. Pour beaucoup d'etabllssements, 11 
n'est pas possible d'utlliser un test qui dure deux heures et demie, 
peu importe les considerations psychometriques en jeu. Par allleurs, 
11 est certain qu'apres une heure, U s'installe chez Tetudlant une 
certaine lassitude d'autant plus qu'avec seulement trois parties, 
Tepreuve peut devenir monotone. En elaborant une version experl- 
mentale de 1 50 items, nous esperions non seulement conserver le 
nombre minimal d'items pour constituer une veritable banque, mais 
nouscomptlons egalement constituer deux versions «papler-crayon», 
plus courtes et equivalentes. En effect, U n'est pas rare qu'on alt 
besoin de plus d'une version dun test, que ce solt pour altemer d'un 
semestre a Tautre ou meme en vue d une pratique aussl dlscutable 
que Tutlllsatlon du test de classement comme pre-test puis comme 
post-test. Les deux versions finales du test «papler-crayon» (3,1 et 
3,2) comprennent chacune 60 Items soit 20 Items par sous-test. Les 
Items sont tous dlfferents d'une version a Tautre sauf pour 
ntem 36 du premier sous-test de la version 2 et les items 4 et 23 du 
deuxieme sous-test de la version 2. Ces Items se retrouvent a la fois 
dans les versions 3.1 t' 3.2 car Us s'averaient particulierement 
efflcaces. 
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Les questionnaires se presentent sous la fonne de fascicules 
(81^" X 1 1"), comprenant hult pages brochees. La couleur de la page 
frontisplce Identifle la version: bleu pour 3.1 et vert pour 3.2. Une 
grille de correction en acetate permet de corrlger rapidement les 
feuilles de reponses. 

3.2.3. 1 Le paraUelisme 

En etudlant la structure factorielle du te^t, nous avlons 
separe pour chaque sous-test les items pairs des items impairs. 
Nous avlons ete surprls de constater que cette division lalssait voir 
une coherence interne remarquable. II nous semblalt done logique 
d'utiliser cette division comme point de depart pour constituer les 
deux versions du test. En effet, les correlations observees nous 
permettaient d'esperer en arriver non seulement a des formes 
equivalentes mals mieux encore, a des formes paralleles au sens ou 
les deflnissent Lord et Novick (1968:chap 8): moyennes identlques 
et variances identiques. 

Nous avons alors tenu compte du contenu des items non pas 
dans rintention d*y retrouver a tout prix les memes elements discrets 
d*une version a Tautre mais simplement pour evlter des duplications 
et nous assurer d*un certain equilibre entre les versions. Ainsi dans 
la premiere partie, deux items impliquaient la notion de comparalson 
(9 et 42) et dans la troisieme partle, deux items (21 et 45) concer- 
nalent la notion d*anterlorite dans le passe; nous ayons done partage 
ces items entre les deux versions. Par centre, noys avons du. pour 
maintenir le paraUelisme des sous-tests #2. placer les deux items 
relies a la fonction «feliciter» dans la meme version: nous ne croyons 
pas que cela afiecte pour autant la validite du test dans la mesure 
ou celui-ci ne repose pas sur un decoupage strict d*un contenu 
notionnel. fonctlonnel ou structural pre-etabli. Nous avons cherche 
a repartir entre les deux versions, les nombreux items de la premiere 
partie impliquant des relations temporelles. les items de la deuxleme 
partie relies a la fonction -demander un service* ou ceux de la 
troisieme partie mesurant unlquement les connaissances lexlcales. 
Dans tous les cas. 11 s*agissalt d*une premiere tentative et plusleurs 
substitutions ont suivi dans le but d*assurer Tegalite des moyennes 
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et des variances. Chaque sous-test a ete traite separement et chaque 
modlficaUon dans la selection des items etalt evaluee a I'alde du 
programme STATEST ou du programme TESTAT. deux loglciels 
derives de notre programme CORREC. On obtenalt alors des 
staUsUques generales sur les deux versions du sous-test de sorte 
qu'il etalt possible de verifier regalite des moyennes et des variances. 

Toutefols. le fait de trouver des moyennes et des variances 
egales ne garantit pas que les scores seront comparables pour 
chaque niveau d'habilete. Encore faut-il uniformlser les echelles^ 
Une fois la parametrisaUon des items de la banque completee. la 
theorie du trait latent offre une soluUon attrayante tant par sa 
simplicite que par le fait qu'elle utlUse toute rinformatlon disponlble. 
Ainsi. plutot que d'uUUser les techniques traditionneUes d'equiva- 
lence lineaire ou d'equivalence equipercentUe (Angoff 1982). on peut 
comparer les courbes d'informaUon des deux versions. Lorsque ces 
courbes sont idenUques. on considere que les deux tests mesurent 
le trait de la meme maniere et que les scores sont done comparables. 
Samejima (1977) fait une distincUon entre le .paralleUsme fort* et 
.parallelisme faible.. Dans le premier cas. les statistiques des tests 
(moyennes. variances et correlations) sont idenUques et il y a une 
correspondance directe entre chaque item. Sans rencontrer toutes 
ces exigences, on peut vlser le paralleUsme .faible. en s'assurant 
simplement que les courb(;s d'informaUon suivent le meme trace. 
Dans notre cas. on peut pader de .paralleUsme moyen* puisque sans 
chercher une correspondance systemaUque entre les items de 
chaque version, nous avons essaye de concilier I'exigence de 
similarlte des courbes d'informatlon avec celle de I'egallte des 
variances et des moyennes. II faut noter de plus que lorsque les 
courbes d-informaUon coincident, et que le nombre d'items est 
constant, on peut comparer dlrectement les scores sans devoir les 
interpreter avec une echelle de conversion (Cook et Eignor 
1983. Hambleton et Swaminathan 1985:chap 10). A I'aide du 
programme TICC. un programme complementalre au systeme de 
gestion de la banque d'items, U nous etalt possible, pour chaque 



• 11 s-agU d'unc operation que Ton nommc en anglais scalmg. terme pour lequel nous 
n'avons pas trouvc de traduction satlsfaisante. 
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nouvelle comblnalson. de calculer les points de la courbe d'infor- 
matlon en fonctlon des niveaux d'habUete qui nous interessaient. 

Avec unc methodc d'essai et d'erreur, ou Teffet de chaque 
modification dans la selection des items etalt verlfie tant au 
plan des moyennes et des variances qu'au plan des courbes d'lnfor- 
matlon. nous en sommes venus a une selection optimale pour 
chaque sous-test. 



TABLEAU 3.13 
Moyennes et ecmrts types des versions 3 





Moyennc 


Ecart-type 


Version 3 . 1 


11 Comprehension 

12 Enonce approprie 
113 Phrases A trou 

TEST COMPLET 


11.69 
i:.92 
.11.43 
36.04 


5.03 
3.98 
4.46 
12. 53 


Version 3 . 2 


11 Comprehension 
tt2 Enonce approprie 
tt3 Phrases ^ trou 
TEST COMPLET 


11.83 
13.00 
11.75 
36. 58 


5. 18 
3.93 
4.75 
12.92 



Le tableau 3.13 montre que les moyennes et les variances 
entre les sous-tests de chaque version varient peu. On note toutefols 
une difference d*un deml-point dans les moyennes de Tensemble du 
test et une variance legerement plus elevee pour Ja version 3.2. 
Quant a la flabllite de Tensemble du test, elle a forcement dimlnue 
du fait qu'on a conserve seulement 60 items mais elle demeure assez 
elevee. pour un test qui ne dure qu'une heure: on a calcule un indice 
KR-20 de .923 pour la version 3.1 et de .927 pour la version 3.2. 

Comme le montrent les figures 3.7a et 3.7b. les courbes 
d'informatlon des sous-tests sont assez semblables d une version a 
Tautre. Les deux versions du premier sous-test (Comprehension) 
donnent un maximum d'information dans la zone -0.1 de Techelle 
d'habllete (entre le niveau intermediaire faible et le niveau Inter- 
medalre moyen). Malgre un Indice de flabllite legerement superleur. 
on volt que la version 3.2 de ce sous-test donne generalement un 
peu molns d'informaUon mais Tecart entre les courbes reste tout de 
meme minime et constant. Etant donne que nous anticipions une 
marge d'erreur plus importante au deuxleme sous-test (Enonce 
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approprle), il n'est pas surprenant que les courbes d'informatlon 
solent moins elevees. Ce sous-test donne un maximum d'informatlon 
dans la zone 0.4 solt a la frontiere entre le niveau intermediaire fort 
et le niveau avance. C est d'ailleurs dans cette zone que la difference 
entre la quantite d'information obtenue avec chaque version est la 
plus importantc. En dehors de cctte zone, meme si la version 3.1 
semble superleure. Fecart est negUgeable. Enfln, le dernier 
sous-test (Phrases a trou) foumit le maximum d'lnformation dans la 
meme zone que le deuxleme mais avec une marge d'erreur plus 
reduite. A partlr du sommet de la courbe Jusqu'au niveau le plus 
avance. Tecart entre les deux versions s'agrandit mais cette fois en 
faveur de la version 3.2 plutot que de la version 3.1. Ainsi dans 
Fensemble. on obtient de rinformation pour tous les niveaux 
d'habllete mais la distribution n'est pas rectangulaire. II serait 
utopique d'allleurs de viser un tel objectif puisqu'on tend genera- 
lement a eliminer les items tres dlfficiles ou tres faciles. On peut 
meme alleguer qu'une distribution rectangulaire n'est pas necessai- 
rement souhaitable car c'est generalement au niveau intermediaire 
que les professeurs ressentent le besoin d'etayer leur Jugement avec 
des mesures plus objectives. 

ncURE 3.7a 
Couibcs d'information de U version 3.1 




-0.75 -0.3 -0.1 0.1 0.3 0.75 

1.5 -I'o -0I5 0 0T5 iTo TIs 
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FIGURE 3.7b 
Courbes d*information de U Terslon 3.2 




HABTLCTE 



Une fois la selection completee. nous avons ordonne les items 
de chaque sous-test, a partir de ntem le plus facile jusqu'au plus 
dilTicile. Cette reorganisation suit la suggestion de Spolsky et at 
(1972) et evite a Tetudiant debutant de se voir confronts a des 
questions trop difficiles. Ainsi, beax.coup de ces debutants choisiront 
de ne pas repondre des quails auront Timpression de deviner la 
reponse. D'autre part, on a place, a la toute fin de chaque partle, un 
item de diflUculte moyenne de sorte que le sujet quitte Tepreuve ou 
la section sans une impression d echec. On reconnait dans cette 
progression, les principes methodologiques de Tentrevue pour 
revaluation de Texpression orale. II est certain que Tordre des items 
affecte la distribution des scores (Hambleton etTraub 1974) de sorte 
qu'il faudra probablement, apres un certain temps, reajuster la 
repartition des niveaux. 

3.2,3.2 La repartition des niveaux 

Etant donnc qu un test de classement vise le plus souvent a 
attribuer un niveau plut6t qu*a asslgner un score, 11 etait important 
d'etablir un bareme permettant de falre correspondre le score obtenu 
a la version 3. 1 ou 3.2 avec un des sept niveaux que nous comptions 
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dlstinguer. Nous avons done, dans un premier temps, divise la 
courbe normalc en sept tranches a Tlnterleur desquelles. en 
supposant unc distribution tout a fait normale. on devait retrouver 
un nombre egal dc sujcts. La repartition s'etablit selor la figure 3.8. 
A raide du programme TESTAT. nous avons ordonne les sujets de 
TechantiUon d'analyse scion leur score en ne retenant que les items 
figurant dans la version 3.1 puis en nc retenant que ceux figurant 
dans la version 3.2. 



FIGURE 3.8 
Repartition des niyeatix dans la population 
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TABLEAU 3.14 
Bareme de correction dea rersions 3.1 et 3.2 



Niveau 


2-Std 


Score / 60 


Debutants 
Paux debutants 
IntermAdlalre falble 
IntcrmAdlalre mo yen 
Intermedia Ire fort 
AvancA 
Tr4s avancA 


Entre -3.0 et -1.0 
Entre -1.0 et -0.5 
Entre -0.5 et -0.1 
Entre -0.1 ct 0.1 
Entre 0.1 et 0.5 
Entre 0.5 et X.O 
Entre 1.0 et 3.0 


De 0 4 23 
De 2i 4 30 
De 31 A 34 
De 35 4 37 
De 36 4 43 
De 44 4 4S 
De 50 4 60 
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En considerant les scores z standardises pour chaque 
version, nous avons cherche a etablir une echelle qui puisse 
minlmlser les ecarts entre les resultats selon chaque version tout en 
respectant la repartition des niveaux que nous avions etablie. On 
obtenait ainsi une echelle unique pour les deux versions (tableau 
3.14). Bien que notre methode introduise une source d'erreur 
supplementalre, il nous semblalt que le parallelisme des deux 
versions etalt tel que la commodite d'une echelle unique compensait 
largement une diminution probablement negllgeable de la fiabilite. 
Uhistogramine de la figure 3.9 permet de comparer la distribution 
des sujets de Techantillon d'analyse selon leur score a la version 3. 1 
ou a la version 3.2. La somme des differences absolues entre les 
niveaux ou chaque etudiant a ete place est de 30. Avec 314 sujets, 
on obtient done un taux d'erreur de classement inferieur a 10%. Ce 
taux est tout a fait acceptable si Ton tlent compte de la proportion 
normale de cas frontieres, c*est-a-dire de sujets qui pourraient etre 
places dans n'importe lequel de deux niveaux adjacents. 
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3.2.3.3 Les correlations 

3.2.3.3.1 Les correlations entxe les sous-tests 

Afin de conflrmer le parallelisme des versions, nous avons 
etabli des correlations entre les scores pour chaque sous-test et le 
score global des deux versions finales. Ces correlations qu'on 
retrouve au tableau 3. 15 tendent a demontrer que les deux versions 
sont paralleles. 



TABLEAU 3.15 
Correlations entre les sous-tests 3.1 et 3.2 







Vers ion 


3.1 






Vers Ion 


3.2 






f 1 


12 


f 3 


Total 


tl 


»2 


t3 


Total 


—3.1 


















11 


1.000 


.811 


.821 


.952 


.911 


.839 


.819 


.920 


12 


.811 


1.000 


.748 


.910 


.794 


.830 


.775 


.854 


13 


.821 


. 748 1 


.000 


.923 


.815 


.768 


.844 


.869 


Total 


.952 


.910 


.923 


1.000 


.908 


.874 


.875 


.950 




















—3.2 — 


















»1 


.911 


.794 


.815 


.908 


1.000 


.812 


.830 


.952 


12 


. 839 


.830 


.768 


. 874 


.812 


1.000 


.769 


.911 


13 


.819 


.775 


.844 


.875 


.830 


.769 1 


.000 


.933 


Total 


.920 


.854 


.869 


.950 


.952 


.911 


.933 


1.000 



Toutes les correlations sont slgniflcatlves (p < .001) et en 
examlnant la matrlce, on volt que les differences entre les coeffi- 
cients de chaque quadrilatere sont attrlbuables aux variations d'un 
sous- test a Tautre plutot qu'aux variations entre les versions. On 
peut s'etonner de ce que ces correlations solent plus falbles que 
celles que nous avlons calculees en comparant les Items pairs avec 
les items impairs de la version 2. Cela tlent sans doute au fait que 
les coefficients n'ont pas etc corrlges pour tenlr compte de la fiabillte. 
Or. avec 20 Items au lieu de 25, 11 faut s'attendrc a une certalne 
chute des coefficients. Par ailleurs. U n*est pas exclu que le facteur 
de fatigue alt ete mieux neutralise avec la division pair/impair ou 
que I'effet du hasard ait tout simplement donne des correlations 
parUculierement elevees lors de cette premiere division. 

3.2.3.3.2 Les correlations avec d'autres mesures 

Si le test est utilise par plusleurs etabllssements. nous 
aurons roccasion, au fll des ans. d'accumuler des donnees qui nous 
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permettront d'une part, de recalibrer les items avec un echantillon 
plus large et d'autre part, de poursuivrc la validation du test. Nous 
avons neanmoins recueilll certains renseignements a cet egard. 
Depuls deux ans, le College de Salnt-Boniface utilise le test comme 
instrument de classement pour ses cours d'ete et semble tout a fait 
satisfalt du rendement du test. Au cours de Tannee scolalre 1988- 
89. nous avons aussl utilise la version 3.1 aupres d'etudiants 
inscrits a TUnlversite Carleton non seulement comme moyen de 
verifier leur niveau mais egalement afln d'etudier la validite concur- 
rente du test puisque d'autres mesures etaient disponibles. 

II nous semblait partlculierement Interessant de comparer les 
resultats d'une des versions finales du test avec un questionnaire 
d'auto-evaluation. On note en didactique des langues, une tendance 
a integrer de plus en plus Tauto-evaluation a la mesure de la 
maitrise (Jarmasz 1983, Lewkowicz et Moon 1985). Connors (1983) 
a trouve que revaluation que font les apprenants de leur propre 
apprentissage Concorde souvent avec celle de juges. Notre instru- 
ment d'auto-evaluation utilisait en grande partie les situations du 
questionnaire en usage depuis plusieurs annees a I'Universite 
d'Ottawa (Leblanc 1989). II s'agit de demander a I'etudiant d'evaluer 
sur une echelle de frequence a cinq categories (a partir de «Jamais» 
jusqu'a «toujours») comment il estime pouvoir accomplir certaines 
taches dans la langue seconde. On peut, par exemple, demander a 
I'etudiant s'il peut suivre I'intrlgue d'un film en frangais. Cette 
methode se revele habltuellement assez eflicace mais peu fiable dans 
certaines cirsconstances, notamment quand Tetudiant a de bonnes 
raisons de vouloir fausser son resultat. Comme le questionnaire de 
I'Universite d'Ottawa n'evalue que les habiletes receptives et ce, dans 
le cadre d'une institution bilingue, nous avons elimine plusieurs 
quesuons que nous jugions peu pertinentes et nous avons ajoute 
une section sur la production. De plus, nous nous preoccupions 
surtout de voir si notre test pouvait mesurer les habiletes orales; 
nous avons done elimine toute reference a la langue ecrite. Les deux 
sections du questionnaire ont ete admlnistrees a une centaine 
d'etudiants de I'Universite Carleton; tous les niveaux etaient 
representes et on avait prevenu les etudiants qu*ils ne rlsquaient pas 
de devoir changer de classe a la suite de ces tests. 
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En comparant les resultats de 107 etudiants au question- 
naire d'auto-evaluation avec les resultats de la version 3.1, nous 
avons trouve une correlation de .79 entre les deux instruments. La 
correlation est reladvement elevee compte tenu des problemes de 
fiabillte que nous avons constates avec Tauto-evaluatlon. Le 
diagramme de dispersion de la figure 3.10 represente la relation 
entre les deux mesures. 



FIGURE 3.10 
Diagramme de dispersion de rauto-evaltuition 
et de la Tersion 3.1 
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Le diagramme a ete obtenu avec SPSS-PC (Norusis et al 
1988) et les chlfTres representent le nombres d^observations a un 
point donne. De fagon generale. les correlations entre chacune des 
parties des deux epreuves depassent .75 et elles sont legerement 
plus elevees avec la section «expression» de I'auto-evaluatlon, 

On a p.ussl demande aux memes etudiants de rempllr un 
questiormairf; sur leurs connalssances lexicales. Nous esperlons en 
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effet decou\Tlr pourquol les correlations entre les sous-tests (ou 
entre les facteurs, si on se refere aux resultats obtenus avec 
USRELi etalent si elevces. Saville-Troike (1984) a mis en 
lumiere le rCle du vocabulaire chez des etudiants devant fonc- 
tionner dans un contexte scolaire en langue seconde. Bamett 
(1986) a trouve que le vocabulaire etait un element determinant 
dans la lecture en langue seconde. II nous semblait aussi que la 
connalssance du vocabulaire pouvalt expllquer la correspondance 
entre les resultats de differentes epreuves. Afin de verifier cette 
hypothese, nous avons Identifle le mot cle le plus important dans 
chaque item de la version 3.1. Ensuite. nous avons place ces 
soixante mots dans un contexte d*une phrase ou le mot conservait 
la meme valeur semantique que dans Titem original. On demandait 
aux etudiants de dire s*ils connaissaient le sens du mot peu 
importe le contexte utilise (2 points), s*Ils pouvaient en deviner le 
sens a partir du contexte foumi (un point) ou s*ils en igno- 
raient tout a fait le sens. Cette formule s'inspire des recher- 
ches de Meara et Buxton (1987) qui ont trouve qu*une liste de mots 
a cocher etait un instrument plus fiable que le traditionnel test 
lexical a choix multiple. 

Nous avons trouve, entre notre epreuve de vocabulaire et la 
version 3. 1 , une correlation de .85 chez les 107 etudiants qui avaient 
fait les deux epreuves. La correlation n*est pas aussi elevee que ce 
a quoi nous nous attendions mais Texamen du diagramme de 
dispersion (figure 3. 1 1) est particulierement revelateur. On constate 
que pour les etudiants plus avances (40 et plus a la version 3, 1), les 
scores du test de vocabulaire tendent a s*agglutiner autour des 
scores les plus eleves. 

Ce plafonnement indiquerait que la mesure des connaissan- 
ces lexicales pourrait etre une bonne indication de la maitrise de la 
langue seconde pour les niveaux debutanto et intermedlaires mais 
qu*elle cesserait de Tetre pour les plus avances. Cette interpretation 
va dans le sens des recherches de Adams (1980) qui a trouve que 
chez les debutants, le facteur predominant etait le vocabulaire mais 
que rimportance de ce facteur s*estompaii quand les sujets etaient 
plus avsmces. De meme, Jochens et Montens (1988) attrlbuent la 
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reduction de la variance des tests de closure au niveau avance. au 
fait que le vocabulaire Ic plus frequent est deja connu. II nous 
semble done que le lexique Joue un role important surtout chez les 
debutants. II s*agit d*unc hypothese de recherche qui meriteralt 
d'etre exploree plus a fond mals cette tache depasse les limites de la 
presente etude. 



FIGURE 3.11 

Diagramme de dispersion de I'epreuve de ▼ocabulaire 
et de la Tersion 3.1 
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TEST DE CLASSEMENT 3.1 
r = .851 N = 107 

Toujours pour nous en tenir aux objectlfs initiaux de notre 
recherche, nous n*avons pas examine en detail la matrlce des 
correlations obtenue avec les resultats des 86 sujets qui ont fait les 
trois epreuves (tableau 3.16). Toutes les correlations sont slgnlflca- 
tives (p < .001). On observe que tous les coefficients impliquant le 
test de vocabulaire sont superieurs a .8 et ce. meme pour les deux 
sections de Tauto-evaluation. 
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TABLEAU 3.16 
Correlations entre rauto-cTaluation, 
la Teraion 3.1 et Tcpreuye de Tocabulaire (N = 86) 





Auto- 


-Evaluation 




Version 


3.1 




vocabu- 




Ecoute 


Expr . 


Total 


#1 


#2 


#3 


Total 


laire 


EC 


1.000 


.886 


.964 


.760 


.748 


.695 


.773 


.835 


Ex 


.886 


1.000 


.976 


.754 


.758 


.754 


.792 


.837 


T 


.964 


.976 


1.000 


.779 


.776 


.749 


.807 


.861 


»1 


.760 


.754 


.779 


1.000 


.862 


. 870 


.958 


.849 


#2 


.748 


.758 


.776 


.862 


1.000 


.862 


.951 


.845 


tt3 


.695 


.754 


.749 


.870 


.862 1 


.000 


,952 


.816 


T 


.773 


.792 


.807 


.958 


.951 


.952 


1.000 


.877 


vo 


.835 


.837 


.861 


.849 


.845 


.816 


.877 


1.000 



II ne fait done aucun doute que le vocabulaire recouvre 
plusieurs aspects de rutilisation de la langue seconde et 
qu*une etude approfondie de la composition factorlelle de cette 
matrice pourrait etre particulierement revelatrice. Une telle 
etude pourrait notamment completer les travaux de Harley et 
aL (1987) qui. dans une recherche aupres d'eleves d*immersion 
frangaise. ont mis en lumiere Timportance de la composante 
lexlcale sans pouvoir toutefois determiner s*il agissait d'un 
facteur autonome. 

En complement a ces premierrjs donnees sur la validite de la 
version 3, nous avons fait Tessal du test, comme ouUl de 
classement. en Taccompagnant d*un test mesurant specifiquement 
la comprehension auditive. Ce test d*ecoute consistait en quatre 
documents authentiques ou semi-authentiques enregistres sur 
bande et suivis chacun de 15 questions de comprehension a choix 
multiples. Le test comprenait done 60 items et deux versions 
differentes etaient disponibles (serle 1 et serle 2)^. Une experimen- 
tation effectuee avec environ 250 boursiers a etabli la fiabilite de la 



* Ccs deux versions du test de comprehension sent des versions ex perl men tales 
claborces dans le cadi*: d*un conirat avcc le Conseil des mlnistrrs de TEducation, 
Torganlsmc qui gcrc le Programme de bourses. 
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serie 1 a .93 ct cclle de la 5eric de la serie a .87. On a administrc la 
version 3.1 et la serie 1 coirimc prt-tcst a une centaine d*etudlants 
du programme de bourses de Salnt-Georges de Beauce (Unlversltc 
York). Apres les six semalnes du programme, on a admlnlstre, 
comme post-test, la version 3.2 et la serie 2. Blen qu*on 
pulsse penser que la comprehension de documents sonores fasse 
appel a une competence qui n*est pas mesurec par le test que 
nous avons elaborc, les correlations entre les deux Instruments 
sont surprenantes: .82 pour le pre-test et .78 pour le post-test 
(tableau 3.17). 



TABLEAU 3.17 
Correlations entre U Tersion 3 et 
le test de comprehension auditive 



Pr*-test Post- test 





Version 3.1 


S6rie 1 


Version 3.2 


S^rie 2 


Ve r s i o n 


3 


1 


1.000 


0.818 


0.838 


0.761 


S^rie 1 






0.818 


1.000 


0.763 


0.843 


Vers ion 


3 


.2 


0.838 


0.763 


1.000 


0.782 


S6rxe 2 






0.761 


0.843 


0.782 


1.000 



Comme U s*agit de coefllcients qui non pas ete corriges pour 
Tattenuation, il est permis de croire que la correlation au post-test 
auralt sans doute egale celle du post- test n*eut ete de la fiabilite 
moindre de la serie 2 et des mauvalses conditions qui prevalent 
generalement lors des post-tests. Par ailleurs, il ne faut paf 
s*etonner outre-mesure de trouver des coefficients aussi eleves car, 
rappelons-le. il s'agit d un test de classement qui. par nature, est ad- 
mlnlstre a une population ou Ton trouve une gamme etendue de 
nlveaux d*habilite. La variance tend done a gonfler les coefficients de 
correlation. 

Bien sur. U faudra falre suivre ces observations preliminalres 
d*experlmentatlons subsequentes afin de mieux determiner la 
validite du test et de preciser davantage ce qu'il mesure. Comme le 
rappelle Cronbach (1971:452). c*estavec le temps que la validite du 
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construit se precisera: Construct ucdidation is tt^r^ore never 
completecL Construct validation is best seen as an ever-e^ervdtng 
inquiry into the process that produces a high or Iqux test i$core 
and into the other effects of those processes, NeanmotnSv les 
resaltats que nous avons obtenus jusqu'ici nous pefmefetenjt de 
croire que le test que nous avons elabore. mesure vxalment une 
maitrise generale du fran^ais. II etait done tout a' Jait Jjtestifie 
de creer une version informatisee exploitant la barique d'^^ems 
que nous avions mise sur pied. ; ^ 
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MiSE AU POINT DU DIDACTICIEL 



Quand il s'agit de banques d'ltems, il faut distlnguer deux 
categories d'usagers. Premierement, on trouve les responsables de 
revaluation et les concepteurs de programmes qui sent charges de 
creer les items, de les experimenter et flnalement de les integrer 
dans la banque. Ces specialistes ont acces a la banque comme on 
accede a une base de donnees. II faut done prevoir a leur intention 
un systeme de developpement. Deuxiemement, on trouve les sujets 
a qui on administre le test et qui ne doivent pas entrer dans la 
banque. L'utilisation du test aupres des apprenants suppose done 
la mise en place d'un systeme d'adminlstration. 

4.1 L*unit6 de developpement 
4.1.1 Donnees techniques 

Comme il nous semblait important d'elaborer un instrument 
informatise qui soit non seulement interessant du point de vue de la 
recherche mais qui puisse aussi servir eventuellement comme outil 
de classement aupres de la population visee, le cholx d'un type 
d'appareils etalt determinant. Nous avons elimine des le depart les 
gros systemes fonctionnant en temps partage. Bien que les premiers 
didacticiels aient ete con^us pour de tels ordinateurs, la technologie 
des micro-ordinateurs personnels oflfre aujourd'hui beaucoup plus 
de possibilites pour les applications dans le domaine de Teducation. 
Au moment ou nous devlons prendre la decision, quatre types 
d'appareils se partageaient le marche educatif: les "Commodore", les 
"Apple" (serie II), les "Macintosh" et les IBM (ou leurs compatibles). 
Les deux premiers nous semblaient en perte de vltesse et Tarrlvee du 
"Macintosh" etait trop recente pour qu*on puisse evaluer son impact 
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pour le maiche de reducaUon. Nous avons done opte pour la famille 
des IBM. La popularlte qu'ont connu ces appareils par la suite nous 
a prouve qu'il s'agissalt la d'un cholx judicieux. 

Toutefois ce type d'appareils souffre parfois d*un manque de 
standardisaUon cause par la multlplicite des marques concurrentes 
et des configuraUons possibles, Afin d'assurer la compatibilite du 
logiciel nous avons essaye de nous en tenir a un programme qui 
puisse foncUonner avec tous les appareils. y compris les modeles de 
base, sans requerir une installaUon parUcuIiere. Tout appareil IBM 
(ou compaUble) dote d'une unite de disque (5Va pouces) et de 256 K 
de memoire vive, pourra executer le programme. Celui-ci fonctionne 
avec tous les types d'ecrans et de cartes graphiques. L'utilisation 
d'un disque rigide permet toutefois d'accelerer Texecution. Nous 
avons egalement produit une version, plus rapide et plus precise, 
pour les machines possedant un co-processeur numerique. 

EssenUellement. le programme CAPT[ComputerizedAdaptwe 
Placement TesQ fonctionne comme un systeme de gestion d'une base 
de donnees auquel on a ajoute des fonctions specifiques. Le 
programme est ecrit en Turbo-Pascal (Borland 1987) et utilise Turbo- 
Database, un ensemble de sous-programmes mis au point et 
distribues par le fabricant du compQateur, pour la gestion des bases 
de donnees (Borland 1985b). Meme si elle requiert une connaissance 
de la programmation et que le developpement peut s'averer fort 
couteux, rutilisation de ce type de logiciel presente des avantages 
considerables par rapport aux systemes auteurs, trop fenmes, ou par 
rapport aux logiciels habituels de bases de donnees (Henning 1986, 
pour un exemple avec DBase), D'une part, grace a un langage de 
programmation, on peut Integrer les fonctions de gesUon de la 
base de donnees a d'autres sous-programmes tels ceux relies 
a radminlstration du test. D'autre part, on obtient un programme 
compile de sorte qu'il n'est pas necessaire d'acheter, d'installer et de 
charger un systeme-auteur ou un inteipreteur sur chacun des 
postes de travail. 

Les fonctions de Turbo- Database permettent aussi la mise sur 
pled de banques considerables: plus de 65,000 enregistrements ou 
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items qui peuvent compter Jusqu'a 64 K chacun. A Tinstar de la 
plupart des logiciels de base de donnees, le systeme precede par 
indexation des enregistrements. De plus, des manupulatlons 
sophistlquees des structures de donnees arborescentes (technique 
B+7Yee) permettent de retrouver les enregistrements desires tres 
rapidement. Dans le cas de rapplicatlon qui nous conceme, nous 
avons cherche un equilibre entre vltesse et volume en limltant 
chaque sous-test a une banque de 150 enregistrements (ou items). 
Chaque enregistrement occupe environ un K de memoire. 

La programmation s'est effectuee selon une apprcche 
modulaire. Cette approche respecte d*ailleurs les principes de 
programmation structuree que nous avons essayes de respecter tout 
au cours de la mise au point du logiciel. Nous croyons qu'il sera 
ainsi beaucoup plus aise d'effectuer ulterleurement des modifi- 
cations au logiciel. Le programme principal de Tunite de developpe- 
ment est done relatlvement court. II s*occupe simplement de faire 
apparaitre Tecran de presentation, d'ouvrir les fichiers, d*amener les 
menus qui occupent une page-ecran (menu principal et menu des 
operaUons) et flnalement de femier les fichiers. Pour les autres 
operations, le programme principal appelle une dizaine de fichiers 
inclus (les modules). Quatre d'entre eux proviennent directement de 
Turbo-Database: 

- ACCE^S.BOX: routines de base reliees aux fichiers de 
donnees et dUndex; 

- GETOEY.BOX: pour retrouver Tltem desire: 

- ADDKEY.BOX: pour ajouter un item: 

- DELKEY.BOX: pourellminer un Item. 

Les autres modules ont ete programmes pour les besoins 
specifiques de Tunite de developpement d'un test adaptatif: 

- ECHELLE.INC: delimitation des niveaux: 

- INOUT.INC: controle de rafllchage: 

- INFO.INC: programme relies a la fonctlon d'lnfor- 
matlon: 

- CONSULT.INC: consultaUon et mises a Jour: 

- E^CTERN.INC: liste et transfert d'ltems; 

- SIMUL.1NC: simulation d'administration de tests 
adaptatifs. 
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La programmaUon s'est falte a Taide de la version 3.01 de 
TxiTbcyPascoL Nous avons par la suite effectue une conversion vers 
la version 4.0 afin de mieux trailer les nombres tres peUts qui 
interviennent dans le calcul de I'habilete par maximum de vrai- 
semblance. Nous avons toutefois conserve les fichiers inclus. Une 
fois compilee. Tunite de developpement occupe environ 65 K de 
memoire, sans compter la quinzaine de fichiers d'index et de 
donnees (5 par sous-test) auxquels ont acces les modules. 



4.1.2 Description desfonctions 

En concevant le systeme de developpement, nous esperions 
mettre au point un logiciel qui jouerait trois roles principaux. 
Premierement, U devalt, comme tout systeme de base de donnees, 
pouvoir entreposer un certain nombre de donnees concemant les 
items. On peut imaginer un grand nombre de renseignements 
succeptibles d'apparaitre dans une banque d'items: formulation de 
la quesUon, indices statisUques, numero d'identification, date de 
creaUon,., On s'attend egalement a ce qu'on puisse acceder rapi- 
dement et facUement a ces renseignements et a ce qu'on puisse 
aj outer ou retrancher des items selon les besoins. Deuxiemement, 
il etait important que le systeme ait la capacite de traiter une 
partie des donnees qui se trouvent dans la banque. Par exemple, 
dans la perspective de la theorle du trait latent, il nous 
semblalt que lorsqu'on avait entre les parametres obtenus lors 
de la calibration, le systeme devait etre en mesure de foumir 
des renseignements sur nnformation qu'apporte un item pour les 
points les plus pertinents de Techelle d'habUete. Troisiemement, 
comme il s'agit en fin de compte d'en airiver a radminls- 
traUon d'un test adaptatif, il etait primordial que le systeme 
puisse simuler une seance de tesUng adaptatif et foumir des 
renseignements quant au deroulement. 

En tenant compte de ces trois exigences, c'est-a-dire 
capacites de gestion de la banque. de traitement et de simulaUon. 
nous avons congu un systeme dont les composantes s'organisent 
selon la hierarchic de la figure 4.1. 
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FIGURE 4.1 
Structure des fonctions de CAPT 
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Lorsqu*on appelle le programme CAPT, It menu principal 
apparait a Tecran. L'usager choisit alors paimi les options suivantes: 

— Acces au sous-test #1 

— Acces au sous-Jest #2 

— Acces au sous-test #3 

— Simulation par stratification 

— Simulation par conrespondance 

— Fin de la session 

On voit done que plutot que d*entrer dans unc des trois 
banqucs d*items. Tusagcr peut decider de simuler radministration 
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d'un test adaptatlf. Deux modes d'admlnlstraUon sont disponibles: 
par stratification ou par correspondance. Dans la section suivante. 
consacree a lunite d'administratlon. nous expliquerons plus en 
detail la difference entre ces deux modes d'administratlon. Au cours 
d'une simulaUon. Tusager Joue le role d'un eleve. Toutefois. il evlte 
les consignes et les exemples et 11 peut suivre le deroulemeni 
du test. En effet. une fenetre a Tecran lui permet de connaitre. tout 
au cours du test, le nombre d'items reussis. TestimaUon de son 
habUete par le programme, la quanUte d'information accumulee... II 
est egalement possible de faire imprlmer les renseignements que 
conUent la fenetre en vue d'une analyse plus approfondle du 
deroulement du test. 

Si Tusager choisit d'entrer dans une des trois banques 
d'items. le programme ouvre alors quatre fichiers: un fichier 
compose des enregistrements contenant les donnees sur les items, 
un autre comprenant la quantlte d'informaUon que dorme chaque 
item pour 13 points de Techelle d'habilite et deux fichiers dlndexa- 
Uon permettant de retrouver les items. On peut retrouver un item 
soit a partir du code d'identificatlon que lui a assigne Tusager, soit 
a partir de Hndice m c*est-a-dire du point ou I'item foumit le maxi- 
mum d'information. Llndice m n*a pas a etre entre par Tusager. Le 
programme se charge de le calculer a partir des valeurs que Tusager 
a attribue aux trois parametres. 

En entrant dans une des banque d'ltems. Tusager 
regolt un autre menu, le menu des operaUons. qui occupe lui aussl 
tout I'ecran. Le menu des operations enumere les posslbllltes 
d'lntervention: 

- Mise a jour de la banque 

- Liste des items 

- Transfcrt d'un autre fichier 

- Table d'in formation 

- Retour au menu principal 

En cholslssant la premiere posslblllte, Tusager obtlent tout 
d*abord une fiche ou apparalssent les Identlficateurs des champs 
que comprend un enreglstrement. On retrouve les champs suivants: 
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— le code d^ldentiflcation de ritcm 

— la reponse correcte a la question 

— rinclde m (calcule par le programme) 

— le paramfetre a (dlscrtmlnation) 

— le parametrc b (difllcuk^) 

— le paramitre c (hasard) 

— la formulation de la question (max. 6 lignes) 

— les options de reponses (max. 6 lignes) 

L'usager peut alors decider d*ajouter un item, c*est-a-dire de 
completer la flche, ou d*appeler un item qui se trouve dans la 
banque. La recherche d'item se fait soit par le code d*identification, 
soit par Tindice ttl Dans ce dernier cas, le systeme affichera la fiche 
de Titem dont Tindice m se rapproche le plus de Tindice demande. 
L'usager peut pai' la suite parcourlr la banque en demandant Titem 
dont Tindice suK immediatement (item plus difficile) ou precede 
(item plus facile) celui qui est affiche. Lorsqu'un item apparait a 
Tecran. il est possible de le retirer de la banque ou d'en modifier 
un/plusieurs champ(s). La modification des champs, comme Tentree 
des donnees. se font dans Tordre de la fiche, la touche <Retum> 
permettant de passer au champ suivant ou a la ligne suivante. On 
peut corriger en se servant des commandes habituclles d'effacement 
et de deplacement du curseur. 

La seconde possibilite permet d'obtenlr la liste (a Tecran, a 
Timprimante ou sur disque) des items avec leur code d'identification, 
la reponse, Tindlce m, les parametres et le debut de la question. 
L'usager peut decider d'ordonner cette liste selon le numero de code 
ou selon Tindice m. 

L'optlon «Transfert d'un autre fichier* permet d'importer 
plusieurs items ranges dans un fichier ASCII plutot que de les 
entrer individuellement dans la banque. II s'agit d une caracte- 
ristique appreciable quand la version papier-crayon qui a servl 
a la calibration a ete redigee par traltement de texte. L'usager 
doit toutefois apporter certalnes modifications au texte afin que 
le programme assigne correctement les segments de texte aux 
champs appropries. 
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Enfln, il est possible de demander, pour un item paiticulier, 
les coordonnees de la courbe d'informatlon pour le point central de 
chacun des sept niveaux que nous avons distingues de meme que 
pour les six niveaux mitoyens. Nous avons en effet divise la courbe 
normale de Techelle d'habilete par strates comprenant theori- 
quement un nombre egal de sujets. Le point 0 correspond a la 
moyenne de la population c'est-a-dire au niveau Intermediaire 
moyen. On peut aussi obtenir un tableau montrant, pour chacune 
des strates, les dix items qui apportent le plus d'information. La 
table d*infonnation est conservee dans un fichier qui doit etre mis a 
Jour si les parametres des items changent. 

Comme tout systeme de gestion de base de donnees, la 
structure d*un tel programe peut devenir vlte tres complexe. 
Toutefois, nous avons voulu en rendre TutUisation la plus simple 
possible de maniere a ce que, pour peu qu*il soit familler avec les 
concepts psychometriques, Tusager puisse s'y retrouver. De fait, il 
est possible d'emmagasiner des donnees pour tout type d*item a 
cholx multiple, pre-calibre selon un modele a trait latent. Des que les 
trois banques sont en usage, on peut simuler Tadministration d*un 
test adaptatif. D'autre part, comme on a respecte les principes de la 
programmation structuree, on pourrait facilement modifier le code- 
source pour Tadapter a une utilisation particuUereV 



4.2 L*unit6 d*administratlon 
4.2.1 Donnees techniques 

Alors que Tunite de developpement sert a la mise sur pied de 
la banque, Tunite d'admlnistration est le logiciel qu*on utilise avec 
les eleves. Tout comme Tunite de developpement, Tunite dad- 
ministration fonctionne avec tous les ordinateurs personnels de la 
famille IBM. Conscient des problemes que comporte Temploi de ces 
appareils aupres de sujets qui ne s*en sont parfois Jamais servis et 
pour qui ces appareils peuvent meme Inspirer de la crainte, nous 



' Nous nc pouvons pas publlcr Ic code-source du programme. Toutcfois de tcUes 
utihsaUons sont possibles en consultant Tautcur. 
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avons cherche a simplifier au maximum les interactions avec la 
machine. Ainsi grace a un flchier auto-executable, le programme se 
charge automatiquement des que la disquette est inseree et que 
Tappareil est mis en marche. En modlflant le fichier auto-executable, 
on peut adapter le programme selon des besoins ou des installations 
speciflquesr rhargement a partlr d'un disque rigide, integration dans 
un reseau, utilisation a distance par modem... Sauf au moment ou 
le sujet tape son nom, les seules touches qui declenchent une action 
sont les choix de reponse (soit «a», «b», «c» et «d»). la barre d'espa- 
cement (pour omettre une reponse), la touche <Retum> (pour 
commencer un sous-test) ou la touche <Escape> (pour interrompre 
Texecution). Tout autre geste declenche un signal sonore rappelant 
a Televe de se limiter a ces touches. 

Avec un appareil de type XT, les temps d'attente au debut de 
chaque sous-test sont negligeables, voire imperceptibles: vers 
la fin du sous-test, quand Tappareil fait Testimation du niveau 
par maximum de vraisemblance, ils devlennent sensiblement plus 
longs mais demeurent acceptables. Comme pour Tunite de deve- 
loppement, nous avons mis au point, parallelement, une version 
pour des appareils dotes d'un co-processeur numerlque. Puisque 
que ces appareils traitent plus efficacement les nombres tres 
petits, le temps d'attente diminue considerablement et I'estimation 
est plus precise. 

Par ailleurs, avec ou sans co-processeur numerique, le 
programme est disponible en deux modes d'administration diffe- 
rents: par stratification (programme STRAT) et par correspondance 
(programme MATCH). La difference tient a la fagon dont le choix des 
items s'opere au cours de radministration. Ainsi, meme pour deux 
sujets d'habilite egale, il est possible que la selection des items, ou 
tout au moins leur ordre. varle d'un mode a I'autre. 

On peut voir I'unite d'administration comme un sous- 
ensemble de Tunlte de developpement. En elTet, le programme 
emprunte en grande partie des portions du code du programme 
CAPT notamment a partir du module de simulation. Le programme 
principal se limite a I'ecran de presentation et a I'enregistrement du 

lot) 
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resultat. Les autres operaUons sont prises en charge par des sous- 
programmes qui se trouvent dans des flchlers Indus (les modules). 
On a conserve deux des modules de Turbo-Database: 

- ACCESS,BOX: routines dc base rellees aux flchlers de 
donnees et d'lndex; 

- GETTKEY.BOX: pour retrouver ritem desire; 

On a programme quatre modules: 

- fiCHELLE.INC: dellmltaUon des niveaux: 

- £CRAN.INC: controle de raffichage; 

- TUTORING: exemples et directives a Televe: 

- ADMIN.INC: admlnistraUon des composantes du test 

Une fols compile, le programme compte un peu plus de 38 K. 
Dans la version actuelle, Tensemble des flchlers necessalres a 
radmlnistratlon occupe un peu moins de la moltle d'une dlsquette 
de 360 K. On pourralt done doubler le nombre d'ltems et quant 
meme disposer d'assez d'espace pour conserver les resultats 
d*envlron 300 sujets. 



4,2,2 Algorithme d' administration 

II convlent pourtant de preciser certains aspects de Talgo- 
rlthme d*admlnlstratlon. 



4,2,2. 1 devaluation preliminaire 

Au debut du test, on exphque a Televe ce qu'on attend 
de lul et la fagon dont se deroule le test. On lui demande 
ensulte de taper son nom et son prenom puis de verifier s'ils 
sont correctement Inscrits. Le programme pose alors quelques 
questions a Televe dans le but d'obtenir une premiere eva- 
luation de son niveau a partlr de ses contacts avec la communaute 
francophone du nombre d'annees d*etudes du frangals et de sa 
propre evaluation. 



Mise ou point du didacticiei 



147 



On verlfie d'abord si le sujet a deja vecu dans un milieu 
francophone. SI cc n'est pas le cas, le suJet n'accumulera pas dc 
point a ce chapitre. Par contrc, s*il a sejoume dans un roi^icu 
francophone entxe 3 ct 12 mols, il recevra 3 points alors que la 
duree de son sejour depasse 5 ans, il recevra le maximum soit 7.5. 
Le total est pondere par la question suivante ou Ton demande a 
retudiant d'indiquer la periode qui s'est ecoulee depuis qu'il a vecu 
dans ce milieu francophone: plus cette periode est longue, plus le 
coefficient est faible. On demande ensuite a Tetudiant pendant 
combien d'annees il a etudie le frangals. Chaque annee d'etude au 
niveau secondaire compte pour un point et chaque annee d*etude au 
niveau post-secondalre pour 1.5. Ici encore, le resultat est pondere 
par le nombre d'annees qui se sont ecoulees depuis le demier cours. 
Lamoyenne quant au nombre annees de contact et de scolarite (avec 
un maximum de 6) forme pres de la moiUe de ce qui senrlra 
d'evaluation prelimlnaire. Uautre moiUe vlent de restimation que fait 
releve de son propre niveau. Oskarsson (1981) a demontre que des 
etudiants peuvent arrtver a se situer assez bien par rapport a une 
echelle globale de niveaux en langue seconde. Le programme affiche 
les sept niveaux que nous reconnalssons et demande au sujet de 
determiner lui-meme son niveau de maitrise generale du frangals. 
On assigne alors une valeur numerique a Tauto-evaluaUon (de 1 a 
7) et on radditionne aux points deja amasses. Le nombre de points 
varle de 1 a 13. ce qui correspond au nombre de strates que nous 
distlnguons. 

Le score ainsi calcule sert de point de depart pour la selecUon 
du premier item. Certaines etudes (Mussio 1973. Tung 1986) 
montrent que plus Testimation de depart est precise, plus le choix 
des items sera approprie et plus TesUmation finale sera juste. Le 
premier sous-test utilise cette evaluation prelimlnaire; le second 
sous-test utilise le resultat du premier; le troisieme fait la moyenne 
des deux premiers. Ce recours a des donnees deja disponibles 
pemiet de redulre le nombre d'items a admlnlstrer pour atteindre le 
seuil d'inforaiation vise. 

On peut certaincment s'lnterroger sur le choix des criteres 
retenus lors dc revaluation preliminalrc: contact, scolarite et auto- 
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evaluation. Cette decision a ete guldee surtout par rexperiencc 
aupres de la population vlsee ct par Ic fait que ccs donnees sont 
Immediatcment disponlbles et quantifiables. Au verso de la feuille de 
reponses de la version 2, on demandalt aux sujets de foumir des 
renselgnements sur leurs contacts avec le milieu francophone et sur 
leur etudes en frangais; on leur demandalt aussl d'ldentifler le 
niveau auquel lis croyaient appartenir. En mettant en parallele 
ces donnees avec les scores, on a determine Timportance 
relative de chaque crltere. Cette fagon de proceder par observation 
satisfalsait les besoins de la presente recherche. II ne fait pas 
de doute nearanoins que ces donnees merlteralent d'etre analysees 
plus systematiquement en vue de Telaboratlon d'un modele predictif 
plus precis. 

4.2.2.2 La selection des items 

De la meme fagon qu'll est avantageux.de pouvolr cholsir 
entre deux versions «papler-crayon» equivalentes, 11 peut etre 
avantageux de pouvolr cholsir entre deux versions adaptatives qui 
requlerent le meme equlpement. exploltent la meme banque et 
demandent le meme temps d'administratlon sans necessairement 
appeler la meme sequence d'ltems pour un niveau donne. Alnsl, 
selon qu*on opte pour radministratlon par stratification ou Tadminis- 
tratlon par correspondance. le choix des items au cours du test 
pourra varier. 

Le mode d'administratlon par stratiflcatlon est une adapta- 
tion de la procedure mise de Tavant par Tequipe de Weiss (Vale et 
Weiss 1975) et presentee au debut du secoud chapltre. Lcrsqu'un 
item est entre dans la banque a Taide de Tunite de developpement, 
on range, dans un flchler. la quantlte d'lnfomiation qu'apporte cet 
Item pour les treize points de Techelle d'habllete qui nous Inte- 
ressent. Ces donnees servent par la suite a constltuer une table 
d'lnfomiation. c'est-a-dire une matrlce de 13 x 10 ou pour chacune 
des treize «stratcs» ainsl detemilnees. on range le code d'lden- 
tlflcatlon des dlx Items qui apportent le plus d'lnfomiatlon a cc 
niveau. Les Items sont ordonnes s;lon Tordre decrolssant de la 
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quantite d*lnformatlon quUls apportent, Tindlce le plus petit etant 
attribue a ritem le plus efflcace. Du point de vue de la structure des 
donnees au plan Infonnatlque, chaque strate peut etre conslderec 
comme une queue. Lors de radminlstratlon, on determine la strate 
a partir de restimation provisoire du niveau d'habllete du sujet et on 
verifie si Tltem sutvant a ete utilise; si c'est le cas on poursuit la 
recherche, sinon on Tappelle avec son code puis on Tidentifie comme 
item deja utilise. La procedure se poursuit jusqu'a ce qu'une des 
quatre conditions suivantes soit remplie: 

— la queue est vide; 

— le suJet a obtenu un score parfait (10/10); 

— le suJet a obtenu un score nul (0/10); 

— on attcint le degre de precKion requis. 

Le degre de precision correspond, comme on le salt, a Terreur 
type maximale permise laquelle est une fonction inverse de la 
quantite dUnfonnation amassee. Pour radminlstration par stratifi- 
cation, ce seuil a ete fixe a .35. Cette marge d'erreur est legerement 
inferieure a la moyenne de Terreur type qu*on trouve pour diflferents 
niveaux avec la version papier-crayon. Nonnalement, le sous-test se 
termlne lorsqu*on a atteint le degre de precision requis. En flxant le 
seuil a .35, on s'assure d'une flabllite generale au molns equtvalente 
a celle de la version «papler-crayon». Par ailleurs, compte tenu du 
nombre d*ltems dans la banque et de leur discrimination, 11 est dif- 
ficile de minlmiser davantage Terreur. II faut noter que la premiere 
des quatre conditions est rarement remplie car le nombre d'items 
dans la queue a ete determine en tenant compte de Terreur type 
maximale et de la taille de la banque d*items. 

Comme nous Tavons mentionne au deuxieme chapltre. le 
concept de radminlstration par correspondance vlent de Lord (1970, 
1977). Bimbaum(1968) avait dejaetabli que, pourunmodeleatrois 
parametres, on pouvait calculer une valeur m, sur le continuum de 
Techelle d'habllete, correspondant au maximum de la fonction 
d*information pour un item 1. On utilise alors la formule 4.1: 




(4.1) 
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L'indice mrepresente don^|e point de la courb^d'informatlon 
ou Titem est le plus efficace. Quanld on entre les p^ametres d'un 
item avec Tunlte de developpement, le programme calcule Tindice m 
et rinscrit dans un flchier d'indoc, Aii moment de l^dminlstration 
par correspondance, il suffit done de chereher I'index qui se 
rapproehe le plus de restimationjSrovisoire de lTiabil^te du sujet. On 
peut alors appeler Titem approprfe en utiUsant eet iiidex. On repete 
Toperation aussi longtemps qu'on n'a pas eomptc dix reponses 
toutes ineorreetes ou toutes eorreetes ou, eomme e'est generalement 
le eas. aussi longtemps qu'on n*a pas atteint le degre de preeision 
requis. II faut souUgner qu'afin de s'assurer que la dufee du test par 
correspondanee soit eomparable a eelle du test par stratifieation 
nous avons du hausser le maximum de Teireur type pour le porter 
a .5. Avee un nombre egal d'items, le test par eorrespondanee est 
done moins fiable. Cela tient au fait que la proeedure utilise une 
plus grande varlete d'items y eompris eertains dont le parametre de 
discrimination peut etre assez bas. La proeedure p^ stratifieation. 
au eontraire, tend a ne retenir dans la table que le^ items qui sont 
les plus discriminants. Nous reviendrons sur les ^implications du 
choix du mode d'administration dans le dernier chapitre. 



4.2.2.3 L'estimation de Vhcdjilete 

Theorlquement, Tadequation d*un ensemble d'items a un 
modele a trait latent implique qu'on puisse soumettre des items 
dlfferents a plusieurs sujets et pouvoir tout de meme comparer 
leuTS resultats. Cela suppose qu'on dispose id'une procedure 
permettant de detemiiner a quel degre d'habilite ^ne configuration 
de reponses donnee est la plus susceptible de se rencontrer. En 
d'autres termes, il faut trouver la vaJeur de 0$^qui maximise la 
fonetlon de vralsemblance. Cette fonction de vrai^fimblance Lou Ul 
prend la vaJeur 0 (reponse incorrecte) ou 1 (repot^ conrecte) peut 
s'exprlmer alnsl: Ji. 



(4.2) 



11 est plus commode cependant dutili^r le logarlthme 
naturel de la fonction qui peut ainsi se reecrlre en* 4,3: 
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In r.(t;ie) = z iv^ in p» + (i - u^) in Qx ] 

(4.3) 

On atteint le maximum de vralsemblance lorsque 0 pemiet 
d*asslgner la valcur 0 a la premiere derlvee:* 



Pour resoudre cette equation, on doit recourrlr a des 
procedures numerlques comme la methode Newton-Raphson. 
Essentiellement, la methode consiste a soustraire un facteur de 
correction (le rapport entre la premiere et la seconde derivee de la 
fonction de vralsemblance) a une premiere estimation de Thabilite. 
On reprend la procedure de fagon iterative sur la nouvelle estimation 
alnsl obtenue Jusqu'a ce que le facteur de^correction soit negligeable. 
On dit alors qu'il y a convergence, 

Cette procedure n'est pas sans probleme. Au plan theorique, 
le probleme le plus serieux tient au fait que la solution n'est pas 
toujours unique, surtout avec un nombre reduit d'items. Ainsi le 
programme doit rejeter toute solution qui assignerait a 0 une valeur 
hors de la gamme des valeurs que cette variable est susceptible de 
prendre. De plus» la procedure ne peut pas s'appllquer lorsqu'on se 
trouve devant un score nul ou un score parfalt. C'est pourquoi on 
doit attendre d'avoir obtenu cinq reponses, dont au moins une 
correct e et une incorrecte, avant de proceder a Testimation par 
ni\'eau de vralsemblance. Tant qu'on ne peut pas calcuier le 
maximum de vralsemblance, Testimation du niveau s'effectue d'une 
fagon mecanique. Avec radmlnlstration par stratification, on passe 
a la strate superleure si la reponse est exacte ou a la strate in- 
ferleure dans le cas contraire. Avec radmlnlstration par corres- 
pondance, on augmente ou dimlnue 0 d*environ .2, Avec les deux 
modes d'admlnlstration, on essale de tenir compte de TefTet du 
hasard lorsque le sujet foumlt une reponse exacte. Par ailleurs, 
apres dlx questions, le programme classe comme «Debutant» (niveau 
01), le sujet qui n*en a reussi aucune et comme «Tres avance +» 
(niveau 14) celul qui les a toutes reussies. 



^ Hambleton et Swaminathan dccrlvent les ctapca dans l esUmatlon de Thabiletc et 
donncnt la formule a employer pour obtcnir les deux premieres dcrlvccs. 
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II faut egalement noter que rutilisation d*un mlcro-ordi- 
nateur pose des problemes paitlculiers. D'une part. Terreur 
d'arrondissement peut faire deliver TiteraUon et ainsi etre 
responsable du fait n'y ait pas de convergence. D'autre part, la 
procedure demande teUement de temps qu'U nous a faUu reduire le 
nombre d'lteraUons a 25 pour les estlmaUons provisoires et a 50 
pour restimaUon finale. Si apres 50 iterations, il n'y a 
toujours pas de convergence ou que le resultat est hors des limites 
prevues, on a recours a une procedure alternative qui consiste 
simplement a considerer la moyenne du niveau (la strate) des 
items reussis par rapport a la moyenne du niveau des items 
echoues. La moyenne de ces deux valeurs correspond a TesUmaUon 
de rhabilite du sujet. Cette technique se rapproche de la technique 
up and down dont discute Mussio (1973) dans une etude sur la 
selection des items. 

Certes. on pourrait rendre plus complexe et plus precise la 
methode pour estimer le riiveau des sujets. On pourrait, entre autre, 
integrer une evaluaUonbayesienne du type Je celle que decrit Owen 
(1975), faire appel a des procedures mieux adaptees aux micro- 
ordinateurs (Bock et Mislevy 1982), ou chercher a obtenir des es- 
timations provisoires plus precises (Reckase 1983). Toutefois, 
puisque dans sa version actueUe, le test foncUonne de fagon tout a 
fait acceptable, de tels raffinements depassent sans doute les 
objectifs de notre etude. 



4.2.2.4 Le resultat final 

Avec la procedure pour Testimation de rhabilite que 
nous venons de decrlre, le resultat final est obtenu. soit en 
appliquant la technique du maximum de vraisemblance (avec un 
maximum de 50 iterations), soit en considerant les moyennes 
de niveaux pour les items reussis et pour les items echoues. 
Nous avons observe qu*une fois sur quatre, il n'y a pas de 
convergence lors de levaluaUon finale et que la convergence 
semble plus difficile a obtenir lors de Tadministration par 
stratification. 

UJ7 
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Toutefols la technique alternative pour restimaUon finale 
nous semble particulierement approprie dans la mesure oO d une 
part, elle Uent compte des estlmaUons provisoires ou la convergence 
s'est realisee et d'autre part, elle exprime le resultat en terme de 
niveau- En effet, c'est Ic resultat dc Tetudiant par rapport aux 
quatorze niveaux distlngues qui nous interesse plutot que TesU- 
maUon de Thabilite par rapport a la courbe normale. Voila pourquoi, 
le resultat final est deflni comme la moyenne des niveaux atteints 
aux trois sous-tests. Compte tenu qu'il n'y avait que trois sous-tests, 
11 nous semblalt superflu de chercher a etablir, comme le suggere 
Weiss et Brown (1978), une regression multiple entre les sous-tests 
afin de detemiiner le niveau. Alnsi, le sujet qui a ete classe «Faux 
debutant +. (04) au premier sous-test, tinteimediaire lU (07) au 
deuxieme sous-test et «Intemiediaire I- (05) au troisieme sous-test, 
sera finalement classe au niveau *Intennediaire I (05). Comme pour 
la version «papier-crayon», on donne alnsi la meme ponderation au 
trois sous-tests. 

Le test se temiine par un message de remerciement qui 
accompagne le resultat final. Ici encore, on communique le niveau 
plutot qu'une note ou un indice statlsUque qui aurait peu de 
signlficaUon pour Tetudiant. Ce resultat est range dans un fichler 
qui pourra par la suite etre reordonne et imprlme en le remaniant a 
raide d'un logiciel de traitement de texte ou en utllisant simplement 
les commandes standard du systeme d'exploltaUon (SORTet PRINT). 
II est alors possible d'obtenir rapidement une liste des sujets qui ont 
fait le test, soit par ordre alphabetique, soit par niveau. On peut 
penser qu'une telle liste devrait faciliter grandement la creation des 
groupes-classes. 

4.3 La xnisc 4 Fessai 

4.3.1 Example du deroulement d'un test 

Christine T. etudie a Tunlversite et y a suivl deux cours de 
francais langue seconde. Comme elle n*a Jamais vecu en milieu 
francophone, elle ne se croit pas capable de fonctioimer en frangals. 
Instance devant un micro-ordinateur qui execute le programme 
STRAT, ChrlsUne a donnc ces renseignements a la machine. Celle-ci, 
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pour Tinstant jugc la candidate «Faux debutant +» et selectlonnc en 
consequence le premier item du premier sous-test (comprehension). 
11 s'agit de I'item C036. comme le montre le tableau 4. 1 qui repro- 
duit la ligne d'lnformation que peut imprimer le programme de 
simulation. Chistinc T. tape la bonne reponse de sorte que le pro- 
gramme lui presente vr^ item plus dlfllcile. le C024. La procedure se 
poursuit Jusqu'au cinquieme item, le C045. A ce moment, le 
programme fait Testimation du niveau d'habilete de Christine et 
interrompt ce sous-test car le seuil d'information vise est deja 
atteint. Apres ce premier sous-test, Christine se situe au niveau 
•Intermedialre I» (0 = -.216). C'est a ce niveau, que correspondra 
done ritem EA34, le premier du deuxieme sous-test (enonce 
approprie). 



TABLEAU 4.1 
Simulation par stratificmtion 



Test 


Item 
Courant 


Dernier 
item 


R^uss is 


Total 


Theta 


Info. 


Er r eur 


It*r . 


1 


1 


CO 3 6 




0 


0 


-0.500 






7 


0 


1 


1 


C02 4 


C03 6 


1 


1 


-0.300 






7 


0 


« 


1 


C025 


C02 4 


2 


2 


-0.300 




? 




0 


1 


1 


C039 


C02 5 


2 


3 


-0.100 






7 


0 


• 


1 


CO50 


C039 


2 


4 


-0.300 




7 


7 


0 


• 


1 


C0 4S 


CO50 


3 


5 


-0.035 




7 


7 


14 


1 


1 




CO 4 5 


4 


6 


-0.216 


8 . 


582 


0.341 


7 


1 


2 


EA34 




0 


0 


-0.216 




7 


7 


0 


• 


2 


EA2 0 


EA34 


1 


1 


-0.300 




7 


7 


0 




2 


EA19 


EA2 0 


2 


2 


-0.100 




7 


7 


0 




2 


EA05 


EA19 


2 


3 


-0. 300 




7 


7 


0 




2 


EAIO 


EA0 5 


2 


4 


-0.500 




7 


7 


0 


• 


2 


EA17 


EAIO 


3 


5 


-0.175 




7 


? 


10 


1 


2 


EAIS 


EA17 


3 


6 


-0.178 




7 


7 


3 


1 


2 


EA43 


EA15 


3 


7 


-0.413 


3 


885 


0.507 


14 


I 


2 


EA30 


EA4 3 


3 


e 


-0.212 


4 


527 


0.470 


25 


• 


2 


EA42 


EA30 


3 


9 


-0. 300 


4 


.826 


0.455 


18 


1 


2 


EA36 


EA4 2 


4 


10 


•0.548 


4 


714 


0. 461 


17 


1 


2 


EA4 0 


EA36 


5 


11 


-0.413 


4 


.971 


0.449 


19 


1 


2 




EA40 


5 


12 


-0.393 


5 


.508 


0.426 


13 


1 




CL06 




0 


0 


-0.305 




7 


7 


0 


1 




CL26 


CL0 6 


1 


1 


-0.100 




7 


7 


0 


• 




CL32 


CL26 


1 


2 


-0.300 




7 


7 


0 


1 




CL28 


CL32 


2 


3 


-0.100 




7 


7 


0 


1 




CL22 


CL28 


3 


4 


-0.100 




7 


7 


0 


1 




CL50 


CL22 


4 


5 


0.249 




7 


7 


12 


• 




CL4 4 


CL50 




6 


0.055 


7 


.481 


0.366 


9 


1 




CL4 6 


CL4 4 


6 


7 


0.009 


8 


.020 


0.353 


7 


• 




CL30 


CL46 


7 


6 


0.613 


7 


.035 


0.377 


21 








CL30 


6 


9 


0.303 


U 


.825 


0.291 


17 
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Cette fois. comme les parametres de discrimination sont plus 
bas. le programme presentera le nombre maximum d'items. soit 12. 
sans pour autant atteindrc le seuU d'information vise. A la fin du 
deuxleme sous-test, Tcstlmatlon de ITiabllete n*a pas change sen- 
siblement (0 = — .393) et c est done au niveau «Intermedlalre I» que 
commence le troisieme sous-test (phrases a trou). avec Titem CL06. 
Comme Christine reusslt bien dans cc genre d'exerclce, les items de- 
viennent rapidement plus difllciles. Apres 9 items, le programme 
esUme que pour cette partle, la candidate se situe au niveau «In- 
termediaire III». En considerant Tensemble des trois sous-tests, la 
machine informe Christine qu'elle a ete classee au niveau «Interme- 
diaire I +» (a la frontiere entre Tintermedlaire faible et le moyen). 



TABLEAU 4.2 
Simulation par correspondance 



Test 


I tern 
Courant 


Dernier 
item 


R4ussis 

Total 


Theta 


Info. 


Er r eur 


It6r . 


• 


1 


C050 




0 


0 


-0 . 


500 






? 


0 


1 


1 


C033 


C050 


1 


1 


-0. 


320 






7 


0 


• 


1 


C039 


C03 3 


2 


2 


-0 . 


150 




? 


? 


0 


• 


1 


C024 


C039 


2 


3 


-0, 


375 




? 


7 


0 


• 


1 


C036 


C02 4 


3 


4 


-0. 


200 




7 


? 


0 


• 


1 


C037 


C036 


4 


5 


-0 


025 




7 


? 


Max. 


• 


1 


CO 3 4 


C037 


5 


6 


0. 


150 




7 


? 


Max. 


• 


1 




C034 


5 


7 


-0 


207 


8 


055 


0.3 52 


11 


• 


2 


EA19 




0 


0 


-0, 


207 




7 


7 


0 


• 


2 


£A49 


EA19 


0 


1 


-0 


432 




? 


? 


0 


• 


2 


EA4S 


EA4 9 


0 


2 


-0 


657 




7 


7 


0 


• 


2 


EA36 


EA4S 


0 


3 


-0 


882 




7 


7 


0 


• 


2 


EAOS 


EA36 


1 


4 


-0 


707 




7 


7 


0 


• 


2 


EAIO 


EAOS 


1 


5 


-0 


932 




7 


? 


Max. 


• 


2 


EA3 4 


EAIO 


2 


6 


-0 


757 




7 


7 


Max. 


• 


2 


EA13 


EA3 4 


3 


7 


~0 


582 




7 


7 


Max. 


• 


2 


EA4e 


EA13 


4 


8 


-0 


407 




? 


7 


Max. 


• 


2 


EA4 3 


EA4 6 


5 


9 


-0 


232 




? 


? 


Max. 


• 


2 


EA32 


EA4 3 


5 


10 


-0 


457 




7 


? 


Max. 


1 


2 


EA0 3 


EA3 2 


6 


11 


-0 


282 




7 


? 


Kax. 


• 


2 




EA0 3 


7 


12 


-0 


500 




7 


7 


Max. 


• 


3 


CL4 3 




0 


0 


-0 


354 




? 


? 


0 


• 


3 


CL15 


CL43 


1 


1 


-0 


179 




7 


7 


0 


• 


3 


CLOG 


CL15 


2 


2 


-0 


004 




7 


? 


0 


• 


3 


CL13 


CL06 


3 


3 


0 


171 




7 


7 


0 


• 


3 


CL18 


CL13 


4 


4 


0 


346 




7 


7 


0 


1 


3 


CL36 


CL18 


4 


5 


1 


197 




7 


7 


22 


• 


3 


CLll 


CL36 


4 


6 


0 


.408 


2 


493 


0.633 


20 


• 


3 


CL02 


CLll 


5 


7 


0 


.907 


2 


025 


0.703 


24 


• 


3 


CL38 


CL02 


5 


8 


0 


.59 2 


3 


.008 


0.577 


18 


• 


3 


CL04 


CL38 


5 


9 


0 


.712 


3 


P /7 


0.508 


20 


1 


3 




CL04 


6 


10 


-0 


.164 


4 


.100 


0.494 


19 
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Le tableau 4. 1 rend compte du deroulement d'une semce de 
testing adaptatlf selon la procedure par stratiflcaUon (STRaT). Au 
tableau 4.2, nous rcprodulsons ce qu'on obUent en simulant un test 
par correspondance (MATCH). Dans ce cas-cl, ChrlsUne seralt plutot 
classe «Intennedlaire Ik On remarque qu'avec cet algorlthme, on 
obtient molns d'informaUon. II faut aussl noter que cette fois, au 
deuxieme sous-test, TestlmaUon par maximum de vralsemblance a 
echoue puisqu'apres 50 iterations (le maximum), il n'y a toujours 
pas convergence. On doit done recourir a une procedure alternative 
et ainsi detenniner le niveau pour ce sous-test d'apres le rapport 
entre le niveau moyen des items reussis et le niveau moyen des 
items manques. 



4,3.2 Originalite du systeme 

Le French CAPTest un didacUciel de testing adaptatif original 
et operationnel. C'est a notre connaissance le seul test adaptatif qui 
ait pour but d'evaluer la maitrise generate du frangais comme langue 
seconde. Sa banque a ete mise sur pied non pas a partir de reponses 
simulees mais de sujets reels. Si le test est utilise de faQon reguliere 
dans un etablissement, on pourra amasser des donnees interes- 
santes sur la pertinence du test et sur ses eflfets aupres des 
etudiants. En ce sens, la comparaison que nous falsons dans le 
chapitre suivant n'est que Tamorce d'une serie de recherches qui 
restent a faire sur Tutilisation d'un test adaptatif en langue seconde. 

Le test se distingue de plusieurs de ses predecesseurs par 
certains raffinements. D'abord, contrairement a plusieurs tests 
adaptatifs experimentaux, le test que nous avons mis au point 
comprend plusieurs sous-tests. Ensuite. nous avons congu un 
systeme base sur une modele a trois parameLres plutot que sur le 
modele de Rasch. Ce dernier, bien que beaucoup plus commode, 
nous semblait en effet mal convenir au type de test qu'on peut 
imaginer faire avec un ordinateur. Enfin, nous offrons deux 
procedures de selection d'items (par stratification et par corres- 
pondance) qui devraient permettre de choislr des items differents 
pour des sujets de meme niveau. 
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4.3.3 Aspects d ameliorer 

Comme pour tous les loglciels, il faut s'attendre a ce que de 
nouvelles versions voient le jour. Nous avons deja mentionne 
quelques problemes au plan de restlmatlon du niveau d'habllete. II 
est certain que nous devrons nous pencher sur cette quesUon et 
programmer une procedure plus efflcace qui Uenne mieux compte 
des demiers developpements en psychometrle et des llmltes, sans 
cesse repoussees mais toujours presentes, du micro-ordinateur. 

Par ailleurs, le meinque de temps, d'equipement ou de 
connaissances techniques nous a parfois conduit a certaines 
simplifications qui pourraient etre corrlgees. De plus, lors de la mise 
a Tessai, nous avons pu observer quelques deficiences auxquelles il 
faudra eventuellement remedier. Nos priorites en ce qui a trait aux 
versions futures sont. par ordre d'importance, les suivantes: 

- Bloquer temporairement Tentree des reponses: Certains 
etudiants. surtout avec des claviers tres sensibles, main- 
tiennent le doigt trop longtemps f^ur les touches et provo- 
quert ainsl un emballement du programme. II s'aglt 
d'une correcUon relaUvement simple a apporter en 
utilisani Vhorloge interne de Tappareil. 

- Rendre la touche <Shift> inoperante: La plus grande 
difficulte que rencontrent les etudiants dans Tinteraction 
avec la machine se trouve au moment ou Us tapent leur 
nom. En inscrivant automatiquement celui-ci en majus- 
cules, on devrait simplifier la tache a Televe. Ici encore, 
il s*agit d'une modification mineure. 

- Ameliorer la presentaUon du resultat final: Au lieu de 
simplement afficher TeUquette correspondant au niveau 
final, il serait souhaitable d'ameliorer la presentation 
visuelle du resultat: on pourrait representer celui-ci sous 
la forme d un «barometre* de sorte que Tetudiant puisse 
se sltuer par rapport a Tensemble de la population. 

- Recalibrer avec des sujets supplementaires: Nous conser- 
vons les feuilles de reponses aux versions «papier-crayon» 
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3.1 et 3.2 qui sont presentement en usage. Nous espe- 
rons de la sortc recallbrer la banque d'items avec au 
molns un mllller de reponses par item. 
Elargir la banque: Les trois banques comptent presente- 
ment un total de 127 items. Nous estlmons qu'on pour- 
rait grandement ameliorer la qualite de la mesure sans 
compromettrc refflcacite de FadmlnistraUon en ayant de 
200 a 250 items. Pour calibrcr des items supplemen- 
taires. il nous faudra crecr des versions .papier-crayom 
avec des items d'ancrage choisis parmi les meilleurs 
items deja calibres. Ce processus pourrait aussi servlr a 
epurer la banque de certains items moins satisfaisants. 
particullerement dans le deuxleme sous-test. 
Rendre la presentaUon plus attrayante: La presentaUon 
du test est pour Tlnstant assez teme. En exploitant la 
couleur de meme que les possibUites graphiques et 
muslcales de Tappareil, on rendralt le test plus agreable. 
Toutefois. cette operaUon pourrait nous obliger a mettre 
au point plusieurs versions afin de tenir compte des 
diverses configurations d'equipement. 
Limiter les cas fronUeres: Pour rinstant. la courbe 
normale est dlvisee en strates egales. On pourrait toute- 
fois envlsager de reduire le nombre de sujets classes a 
des niveaux mltoyens (ex: «Avance + ») en retrecissant la 
bande et en dimlnuant le niveau de Terreur type accep- 
table pour les sujets qui se trouvent classes a ces 
niveaux. Alnsi. ceux qui y resteralent seralent de verita- 
bles cas frontieres c'est-a-dire des sujets qui pourraient 
aussi bien etre classes au niveau superieur qu'au niveau 
inferleur. 

Reviser la formule de revaluation preliminaire: En analy- 
sant statisUquement les donnees recueillles quant a 
rexperience anterleure en frangais. on pourrait decouvrir 
la contribution reelle des trois facteurs que sont le 
contact, la scolarlte et Tauto-evaluaUon. On pourrait 
alors mettre au point unc formule plus Juste. 
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— Ajouter un sous-test de comprehension: Pour le classe- 
ment dans un cours ou la composante orale est impor- 
tantc, on s'attendrait a disposer, sinon d'un sous-test 
d'expression orale, du moins d'un test de comprehension 
auditive. Les observations que nous avons pu faire en 
verifiant la validite de notre instrument nous portent a 
penser qu'un tel sous- test pourrait servlr a evaluer la 
maitrlse gcnerale. Sans recourlr a des technologies aussi 
lourdes et couteuses que le videodisque, on pourrait 
exploiter la possibilite de coupler le micro-ordinateur a 
un magnetophone ou a des supports de son numerise 
(ex.: CD-ROM). 

On voit done que rinstrument dans sa version actuelle n*est 
pas parfait et on peut penser que chaque amelioration ouvrlra la voie 
a des . . Tinements qu'on n'avait pas soup^onnes. Cependant, nous 
esUmons que le test est, dans sa version actuelle, tout a fait 
uUlisable et qu'avant de Tameliorer, il faut evaluer si Tinvestissement 
de temps, d'argent et d*energie que cela suppose, est justlfie. 




La comparaison 
d*un point de vue theorique 

Le projet de mettre sur pied un test adaptatlf s*appuie 
sur rhypothese que cette formule peimet, dans certalnes condi- 
Uons. une evaluation plus Juste et plus commode de la per- 
foimance de Tapprenant en langue seconde, Notre demarche a 
consiste a d'abord elaborer un test tpapier-crayon* pour en 
faire par la suite une version informatisee, Reste la question 
fondamentale: quels sont les avantages du passage d*une 
version a i'autre? 

Nous tenterons d'abord de repondre a cette question d'un 
point de vue theorique en faisant Tinventaire de ce qu'on peut 
imaginer comme avantages et inconvenients du tesUng adaptatif 
aussi bien au plan psychometrlque, qu'au plan psychologique, qu'au 
plan administratif. Nous nous inspirons des exposes de Larson et 
Madsen (1985) et de Tung (1986) pour ce chapitre qui se veut le fruit 
d'une reflexion sur la question plutot que le resultat d'une experi- 
mentation. 



5, 1 Les avantages du testing adaptatif 
5.1.1 Au plan psychometrique 

Ce sont essentiellement des consideraUons d'ordre psycho- 
metrique qui ont inspire les rechcrches autour du concept de 
ttestlng adaptatif*. Theoriquement. le testing adaptatif peraiettrait en 
effet d'ameliorer la qualite de la mesure en eliminant certalnes 
sources de variance indesirables. 

ERIC 
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- Fiabilit6 6tendue: Weiss (1982) souUgne que beaucoup 
de ceux qui elaborent des tests conventionnels sont confrontes au 
dilemme «largeur de bande vs fiabilite». En efiet, si on desire obtenlr 
une mesure sufRsamment precise a un niveau particulier sans 
prolonger indument la seance, il faut renoncer a des items qui 
mesurent a d'autres niveaux. II en resulte que meme dans des tests 
qui s*adressent a une population ou les niveaux varlent beaucoup, 
comme dans le cas d'un test de classement, les tests conventionnels 
negligent generalement les points extremes de Techelle d'habilete. 
Theorlquement, avec Ic testing adaptatif, en maintenant la meme 
marge d'erreur acceptable, on obtient une distribution rectangulaire 
de Tinformatlon de sorte que le test est aussi precis a un niveau qu*a 
un autre. 

- Fiabilit£ accrue: La flabilite du testing adaptatif a fait 
robjet de plusieurs etudes dont nous rapporterons les conclusioi"i3 
plus loin. Comme la procedure de testing adaptatif selectlonne les 
items les plus pertinents, il en resulte que pour un nombfe egal 
dUtems, la mesure a un niveau particulier sera plus precise que celle 
obtenue avec un test conventionnel commun a tous les candidats. 
On peut meme imaginer des systemes ou Ton feralt varier la marge 
d'erreur acceptable selon le niveau. Par exemple, dans un test de 
classement, on peut choisir d'augmenter la flabilite avec les cas- 
frontieres: dans un test de certification, on peut concentrer Tinfor- 
mation autour du seuil de passage. 

- Mode de correction plus efficace: A moins de disposer 
de Uequipement necessaire pour efiectuer une correction electro- 
nlque, on corrige habltuellement les tests conventionnels en 
comptant le nombre de reponses correctes. Ce mode de correction 
n'est valable que si tous les sujets repondent aux memes items e* 
qu*il est ralsonnable de croire que chaque item doive recevoir la 
meme ponderation. Par contre, dans le cadre d un test adaptatif, une 
fois les parametres des items bien Identifies, on peut elTectuer une 
correction par maximum de vraisemblance. Cette technique dolt 
theorlquement donner la meiUeure estimation de Thabilete d un 
sujet. Certains problemes Inherents au calcul par maximum de 
vraisemblance en limltent parfois TutilisaUon: double solution, non 
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convergence, score nul ou parfalt... Dans ces cas, on peut recourir 
a des solutions alternatives (moyenne des strates ou correction 
bayesienne) qui tiennent aussi mieux compte des configurations de 
reponses et des parametres de chaque item que le mode de correc- 
tion conventionneL 

— Validit6 sup6rlcurc: Comme la procedure de testing 
adaptatif conduit a soumettre a I'etudiant des questions qui 
correspondent davantage a ce qu'il peut ou sait falre, on peut crolre 
que les taches auxquelles il sera confronte seront plus realistes, De 
ce point de vue, on ameliore la valldite de rinstrument car on 
s'assure de mesurer ce qui peut etre effecUvement mesure a un 
niveau d'habilete donne. ^ 

— Nouveaux types d'ltcms: Uordinateur offre des 
ressources dont on ne dispose pas avec les questionnaires tradi- 
Uonnels notamment en ce qui a trait aux possibilites gra- 
phiques de I'ecran. On peut done imaginer de nouveaux types 
d'items qui pourralent correspondre davantage a I'objectif poursuivi, 
Dans I'elaboration de tests psychologiques, Cory et Rimbald (1977) 
ont ainsi remarque que Tordinateur permettait de convevoir des 
items orlginaux qui mesuralent mieux la memoire a court 
terme et le raisonnement sequentiel. II faut noter que dans le test 
CAPT, tous les items ont ete calibres a partlr d'une version 
tpapier-crayom et que cette approche ne convient plus si on desire 
innover en construisant des items qui utilisent des ressources 
propres a la machine. 

— Detection dc configurations de riponses Inhabltucllcs: 

Au cours de radministration d un test adaptatif, il est possible 
d'integrer des procedures de calcul d'indices d'adequation tels que 
ceux que proposent Tatsuoka et Tatsuoka (1982) ou Lcvlne et 
Drasgow (1983). Nous ne voylons pas le besoin d'integrer de telles 
procedures dans le test CAPT. Cependant, U est certain que la 
detection des reponses aberrantes est importante lorsqu'on a des 
raisons de douter de Thonnetete ou du scrieux certains candidats ou 
qu'on constate des differences soclo-culturelles marquees a Tinte- 
rleur de la population. 
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- Traitcmcnt dcs differences soclo-culturcllcs: La detec- 
Uon des reponses aberrantcs ne sert qu'a reperer les sujets pour qui 
le test ne convlent vhs. Toutefois, si un sujet est identifie au debut 
d'une session de tesUng adaptatif comme membre d'un groupe 
minoritaire pour qui le test pourrait etre blaise, on peut tenlr 
compte de cet aspect lore de la selection des items. Pine et Weiss 
(1978) demontrent refficacite de la -prediction diflferentlelle* 
pour administrer des tests plus justes a une population minoritaire 
de race noire. La technique consiste essenUellement a proceder a des 
calibrations indepcndantes pour chaque groupe et a utiliser le jeu de 
parametres le plus approprle. 11 faut souligner que compte tenu de 
rhomogeneite de notre population, et de la complexite de la program- 
maUon. nous n'avons pas recouru a ce rafflnement supplementaire. 

- Traltement de rinfonnation prialable: Uappartenance 
a un sous-groupe est Tune des donnees que Ton peut considerer au 
depart. De fait, une procedure de testing adaptatif efflcace peut aussi 
tenlr compte d'une varlete de donnees telles que Texposition a la 
langue seconde. le dossier scolalre, Tauto-evaluatlon. li peut aussi 
s'agir des resultats des sous-tests anterieure dans le cas de tests a 
plusieurs secUons. Toutc cette information peut etre consideree au 
debut d'un test afln de trouver. des le depart, un item pertinent. 



5. 1 .2 Au plan psychologique 

Des qu'elle fut lancee, Tidee du testing adaptatif en a seduit 
plusieurs du fait qu'eUe faisalt miroiter la perepective de varier le 
test selon Tapprenant, de vlser «une mesure sur mesure». La plupait 
des avantages qu'on peut voir dans le testing adaptatif sont relies a 
cette possibilite d'lndividuallser Fadminlstratlon. 

- Rumination des items trop diffilcilcs: On connait le 
sentiment de frustraUon que peut vlvre TetudLant debutant qui doit 
subir une seric dUtcms beaucoup trop dlfficiles. Cette frustration 
devlent vlte du decouragement, Tetudiant volt TapprenUssage d'une 
langue comme un objectif inattelgnable et se culpabillsc meme de 
son ignorance. II est frequent quUl ne complete pas le test. U 

1 



sentiment de frustration peut etre partage tout sujet a qui on 
presente des items trop difficiles. II faut toptefois soullgner que 
ia norme prescrlte par la theorle {50% dc cha^|e de reiissite quand 
le hasard ne Joue pas) ne correspond pas netj^ssairetncht au seuil 
psychologique auquel se refere un etudiapi pour juger de la 
difllculte d'un item. Prestwood et Weiss (J977) .'obsenrent en 
effet que les etudiants falbles Jugent souveii^t les items de leur 
niveau trop dilllciles. « ^ 

- Elimination des items trop^cilcs* Inversement. I'etu- 
diant avance a qui on soumet des itemfe trop f^ciles aura^ Timpres- 
sion de perdre son temps et Jugera c#e le t^t ne iui rend pas 
Justice. Uabsence de defl se traduit ^ar un^ perte d'interet et 
eventuellement par des reponses erronecs parceique le sujet n*arrive 
plus a se concentrer sur une tache qu'i^l estlm^de toute fagon trop 
facile voire futile. | : 

- Correction immediate; On peut programmer le systeme 
de sorte que Tetudiant sache s*il a repondu cofrectement sitot sa 
reponse tapee. II est permis de croire fciue les siijets apprecient de 
savoir s*ils ont bien repondu et que cette retroaction instantanee 
peut Jouer un role important dans^'-roptlque'^^d'une evaluation 
formative. II n'est pas certain toutefois que^jcette retroaction 
instantanee ait toujours des ehets'^ositifs d^kl^tant plus qu'elle 
peut affecter Tindependance des Items et liKner a la divul- 
gation des reponses. Par contrc, sans necessaffement reveler la 
reponse des chaque question^ onpeut pommuniqi^r-aretudiant son 
resultat final des que le test est Vermine. L'etudiant n'a done 
pas a falre de demarches supplernentaires pour obtenlr j^n resultat 
ou a attendre que les correcteurs alent achevc leur , travail 
Avec le systeme CAPT. on affiche slmplement le niy'eau> auquel 
retudiant a ete classe, mals il est clair qae* ce riessage 
pourrait etre plus nuance. On pourrait, par exeniple/lndJqtier le 
resultat pour chaque sous-test ou indiquer a Televe }e(^ cours 
qu*il pourrait suivre. \ f ' 

— Test pcrsonnalis€:: Que ce soit parce que la machine 
Interpelle le sujet par son nom, ou parce que le message varie d'une 
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situation a Tautre, ou encore parce que le programme semble tenir 
compte des reponses du sujet, celui-ci aura rimpression que le test 
est fait pour lui. II appreciera qu'on ne lul impose pas Tanonymat 
des tests conventlonnels, 

~ EnvlronncmentfacUitant: Des 1973, Johnston et Mihal 
avalent remarque que radminlstraUon d'un test par ordinateur 
permettalt aux membres des minorites noires de mieux reussir. 
Saracho (1987) slgnale aussl que Tenselgnement assiste par 
ordinateur peut favoriser TapprenUssage chez les eleves de groupes 
mlnorltalres. De fait, le contexte de TadmlnlstraUon d un test 
info^maUi^^ se distingue de celui d'un test convenUonnel tradition- 
nellement assocle aux valeurs qu'impose lamajorite domlnante dans 
le systeme d' education. 

— Administration sur demande: Blen que relie davantage 
a rutiUsaUon du test adaptatlf qu'a ses proprletes intrlnseques, le 
fait que Tetudiant alt Voccaslon de falre le test quand il en a envie ou 
quand 11 se sent pret a le faire, peut, dans certaines cirsconstances, 
rendre la formule du test adaptatlf paitlcuUerement attrayante pour 
Tetudlant. 

- Aspect ludiquc: II ne s'agit pas non plus d'une proprlete 
mtrlnseque au test mals 11 est certain que Tengouement que connait 
rordlnateur a des fins de diverUssement peut contribuer a faire 
percevolr le test comme un Jeu plutot qu'une epreuve. II peut en effet 
etre amusant d'interagir avec unc machine. 



5,1.3 Auplan administratif 

Au plan administratif. plusieurs des avantages qu'on peut 
imaglner s'apparentent aux considerations qui entrent en Jeu 
lorsqu'un organisme decide d'lnformatlser une partie de ses 
operations. 

- Traitcmcnt immddiat des r6sulUts : Aussitot la demiere 
reponse foumle, on obtient un resultat qui peut par la suite etre 
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manlpule comme toute autre donnee. On peut done ajouter le 
resultat d un etudiant a ceux d un groupe, puis, avec les logiciels 
approprles, reordonner, epurer, Imprimerces resultats pour produire 
des llstes. On peut egalement les transformer par des formules 
mathematlques ou des regroupements, les analyser statlstlquement 
ou les integrer dans une banquc dc donnees. 

— Confidcntialit£ des risultats: Comme aucune feuille de 
reponses ne circule et que les resultats sont ranges dans un fichier, 
seul Tusager qui a acces a ce fichier peut connaitre Tensemble des 
resultats du moins tant qu'il ne decide pas de les imprimer 
ou de les copier ailleurs. Compain et al (1989) ont montre 
que rexigence de confidenUalite pouvait parfois, a elle seule, 
Justlfler rinformatlsatlon d'une epreuve, notamment quand reva- 
luation se fait en milieu de travail. 

— Sicurltd du test: Non seulement il ny a aucune feuille 
de reponse, mals il n'y aucun questloimaire. A moins qu'il ne 
s'agisse d un test de certification ou il faut observer le plus grand 
secret, on peut done administrer le test sans risquer que les 
questions et les reponses ne soient divulgees. Compte tenu des couts 
de production de versions equivalentes, il s'agit la d'un avantage 
appreciable. La securlte du test est d'autant plus preservee qu*avec 
de grandes banques d'items, le contenu des tests peut varier 
considerablement d un sujet a Tautre decourageant ainsi la produc- 
tion de copies illicites. 

- Administration individuelle: Avec un test adaptatif. il 
n'est plus necessaire de former des groupes afin de jusUfier la 
location d*une salle et Temploi d*un surveillant. On peut proceder a 
des administrations ponctuelles: il sufllt de placer Tetudiant devant 
sa machine. On peut meme envisager une administraUon a distance 
en utilisant des lignes telephoniques ou des reseaux d'ordinateurs. 

- Temps d'administration riduit: Parce qu'il faut moins 
d'items pour attelndre des nlveaux de precision comparables, 
radministraUon se fait plus rapidement qu'avec une version 
convenUonnelle. De plus, Greaud et Green (1986) font remarquer 
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que les sujets repondent plus lapldement a un test sur ordlnateur 
du fait qu'au lieu d'inscrire la reponse sur une feuille. il n'ont qu'une 
touche a appuyer. Du point de vue de la gestlon du temps dans le 
systeme d'educaUon. 11 faut voir cette reduction du temps consacre 
a revaluation comme du temps supplementalre pour des activltes 
d*apprentissage encadrecs. 

- Contlnuiti avcc rcnscigncmcnt programmt: Dans la 
perspective d*un enselgnement asslste par ordinateur, on peut 
imaginer le test de classement adaptatlf comme la premiere etape 
d*un programme ou les applications pedagogiques de Tordinateur 
sont integrees a un programme d'acUvltes pedagogiques adaptees a 
retudlant. 



5.2 Les limites du testing adaptatif 
5.2- 1 Au plan psychometrique 

Les objections theorlques qu*on peut apporter au testing 
adaptatif sont de taille. Elles Uennent a la fois aux modeles psycho- 
metriques bases sur la theorie du trait latent et a la nature der> 
taches qu'on peut demander au sujet. 

~ Unidimensionaliti: Dans notre discussion sur la dimen- 
sionalite des tests de langue. nous avons etabli qu*il existait entre les 
composantes d*un test de langue une variance commune et qu'il 
etait. de ce fait, possible de concevoir un test de maitrise generale. 
Toutefois. relaboration d'un test adaptatif qui vlserait a evaluer 
divers aspects de la performance linguisUque. comme peut pretendre 
le faire un test diagnosUque par exemple. pose des problemes 
majeurs. A moins de postuler. comme les tenants des approches 
naturelles (Krashen 1978). une sequence naturelle d'acquisiUon des 
elements linguistiques. on voit mal comment un instrument base sur 
la theorie du trait latent peut seivir a deceler des forces ou des 
faiblesses chcz un ctudiant On peut done douter de la valeur d'un 
test adaptatif dans le cadre d*unc evaluation formaUve dent le but 
n'est pas tant de sltucr Televe sur un continuum que de degager des 
elements permcttant I'elaboratlon d'objectifs d'apprentissage 
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specifiques. Par ailleurs, meme en admettant comme Hennlng etaL 
(1985) que la procedure dc calibration soit suffisamment robuste 
pour txalter un ensemble d'items d un test de langue presentant une 
structure multldimensionnelle, on ne peut pas necessalremnt 
conclure que TappUcation de la theorie soit legitime. En effet. toutes 
les applications falsant appel a des banques d'items s'appuient sur 
le principe d'invariance des items c'est-a-dire sur Thypothese que les 
items sont interchangeables. Tout item presentant un ecart par 
rapport a Taxe commun devient done unc source d'erreur. II s'agit la 
d une restriction tres serleuse qui peut Umlter singuUerement la 
comparabilite des resultats et consequemment la valeur d un test 
adaptatif qui ne respecteralt pas Texlgence d'unidimensionalite. 

- Ind6pendance des items: Aspect particulier de I'unidi- 
mensionalite. ce pre-requis a Tutilisation d'un modele de la t'aeorie 
du trait latent represente une condition que beaucoup de tests de 
langue ne saUsfont pas. D une part, en excluant I'emploi des 
reponses anterieures comme indices, le principe d'lndependance des 
items entrave le processus par lequel Tetudiant construit des 
hypotheses sur la signification d*un encnce ou la formulaUon d'une 
reponse correcte et approprlee D'autre part, elle interdit la reali- 
sation de taches purement integratives. comme la production libre. 
en forcant une approche par item qui ne correspond pas toujours a 
ce qu*on doit '■aesurer. 

- Errcur dc calibration: Meme avec des echantUlons assez 
grands. Thissen et Wainer (1982) ont trouve que la calibration avec 
les modeles a trait latent pouvait presenter des erreurs types assez 
considerables surtout quand la valeur des parametres de difficulte 
et de discriminaUon (a et b) diminuait et que Teffet de hasard (c) 
augmentait. Comme la quallte de la mesure d*un test adaptatif 
repose sur la precision de la calibration. TutUisation de parametres 
inexacts peut invalider totalement la procedure. 

- Incompatibility des modes de correction: Si Testi- 
maUon du niveau d'habilete par maximum de vraisemblance s*avere 
la solution la plus Juste du point de vue theorique. les problemes 
inherents a ce mode de correction forcent les praticiens a se toumer 



vers d'autres methodes. II est douteux qu'on puisse comparer des 
resultats obtenus avec des modes de correcUon dlfferents et la 
quesUon de determiner le mode le plus approprle reste ouverte. 
Comme le slgnalent Glalluca et Weiss (1979:26) en etudlant le 
deroulement d'un test adaptatif: The issue of the appropriate choice 
of scoring method pervades implementations of ICC test theory and 
hence is not confined to this particular implementation of an 
adaptive testing strategy. Le probleme devient encore plus serleux 
quand on veut comparer les resultats dun test adaptatif avec ceux 
d'un test .papier-crayon* ou on considere generalement le nombre 
de reponses correctes. 

- Comparabllitfi avec les versions conventionnelles: La 

difflculte de comparer les resultats d'une version adaptatif avec ceux 
dune version .papier-crayon, ne reside pas uniquement au plan du 
mode de correcUon. Comme le fait remarquer Green ( 1988). un item 
orlginalement congu pour un test conventionnel prend. lorsque 
transpose sur un ecran. un nouvel eclalrage de sorte que la tache 
que doit realiser I'etudiant est differente. Quand la calibration des 
items se fait a partir des donnees d'une version .papier-crayon., il 
faut done etre prudent afin de Umlter les interferences attribuables 
a la tranposition d'un mode de presentaUon a I'autre. 

- Interaction Umltde: On est encore loin du Jour ou 
I'etudiant pourra echanger avec la machine. Dans la plupart des cas. 
la reception des messages se fait au moyen d'un ecran et la produc- 
tion au moyen d'un clavier. Afin de reduire les interferences du 
medium. U est habituellemnt preferable de limiter I'intervention de 
I'etudiant a I'utilisatlon de quelques touches. De plus, a un moment 
ou on s'mterroge encore cur la fagon de dcnner une interpretation 
semantique convenable a des echantillons de langue naturelle, on 
peut imaginer que I'analyse automatisee des productions libres a des 
fins evaluaUves n'est pas pour demaln. C'est pourquoi. pour 
I'lnstant. le testing adaptatif, convient davantage a revaluation des 
habUetes receptives. De plus, dans I'optique cognitiviste (Anderson 
1985). on peut affirmer que de par la nature des taches qu'on peut 
falre realiser. le testing adaptatif se prete mieux a revaluation des 
taches declaratives qu'a celle des taches procedurales. 
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— Mode 6crft: Des contxaintes technologiques tendent a 
conflner rapplicaUon du testing adaptatif au mode ecrit. C'est .ncore 
au prix d'un rafllnement technique souvent prohibitif qu'on peut 
foumir a Tetudiant un signal audio ou video. Conime pour la 
majorite des applicaUons pedagogiques de I'ordinateur, le mode ecrit 
demeure done pour Finstant le type d'lnteracUon prlvilegie dans le 
cadre d'un test informatlse. 

- Environnement artificid: La situaUon de test, a savoir 
reagir a des quesUons a choix mulUple provenant d'un ordinateur, 
presente evldemment peu de similarltes avec une situation reelle 
d'uUlisation de la langue seconde. On peut de la sorte mesurer 
certains aspects composant la maitrise generale et sous-Jacents a 
Tutilisation effective de la langue seconde dans diverses situations. 
II est cependant bien difficUe de viser la mise au point d'un test 
direct ou meme la realisation de taches pouvant mener a des 
generalisations vers des situations plus authentiques. 

5.2.2 Au plan psychologique 

Quels sent les effets de Tenvironnement d'un test adaptatif 
aupres des etudiants. De fait, on peut anticiper beaucoup d'incon- 
venients en reflechissant sur les reactions habituelles que peut 
susclter Temploi de Tordinateur dans le milieu de Teducation. 

- Manque de validit6 apparente: Le cliche le plus commun 
a trait a Taspect dehumanisant de la machine. Beaucoup se 
demanderont comment on peut Imaglner communiquer avec un or- 
dinateur. Ainsi, le meUleur test informatise risque toujours d'etre 
taxe de tels Jugements pre-congus. Ces stereotypes font partie de la 
validite apparente du test. II \ie s'agit plus de savoir ce que le test 
mesure effectivement mais plutot ce qu'il semble mesurer pour les 
usagers. Nevo (1985) consldere que la validite apparente merite une 
certalne attention et qu'elle est mesurable. Morrow (1979:155) 
accorde une place preponderante a cette forme de validite allant 
meme Jusqu'a pretendre que lafiabilite est secondaire, subordinate 
to face validity". S'opposant vivement a cette position, Stevenson 
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(1985) rejette quant a lui toute forme de Jugement naif sur la validite 
d'un test. LegiUmes ou non, il restc que ccsjugements s'observent 
et qu'on ne peut esperer voir un etudiant accepter un instrument 
qu'il Juge negativcmcnt. Tous les sujets qui opposcnt cc type de 
resistance a I'emploi de I'ordinateur auront beaucoup de mal a se 
sentlr a Taise au cours d'une seance de testing adaptatif. 

— Environncmcnt mena^ant: Pour beaucoup de sujets, 
renvironnement informatique peut constituer une source de crainte 
et d'anxiete. Pour ceux qui n'ont Jamais touche a un clavier dordi- 
nateur ou meme a un clavier de machine a ecrire, la perspective de 
devoir utillser un ordinateur peut etre traumatisante quand elle 
s'ajoute a celle de devoir falre un test. La presence de la machine 
devient done une source de «brult» (Bowen 1978) qui peut empecher 
retudiant de donner sa pleine mesure. On peut aussl penser que 
certains etudiants, les plus Jeunes ou les fanatlques des machines, 
seront favorises par la procedure au detriment des plus ages ou des 
profanes des ordinateurs. Selon son style d'apprentissage, un 
etudiant peut etre plus ou molns a False face a un ordinateur: par 
exemple, Chapelle et Jamleson ( 1982) rapportent que Tenselgnement 
asslste par ordinateur convlent peu aux etudlants utlllsant des 
strategies d'apprenUssage de type analjrtlque. 

— Familiarisation avcc Tcnvlronncmcnt: Alors que la 
situation classlque du test objectif represente rarement une situation 
nouvelle pour Tetudlant, il faut, dans le cas d'une epreuve Informa- 
Usee, s'assurer que chacun pulsse communlquer avec la machine. 
Dans les cas les plus simples, comme celul du systeme CAFT. Il peut 
s'aglr essentlellement de reperer les touches sur le clavier et, dans 
les cas les plus compllques, d'apprendre a appeler le programme ou 
de taper des commandes partlcuUeres. Dans tout test InformaUse, 
11 faut done ajouter une composante dldactlque pour expllquer au 
sujet comment utillser Tapparell. 

— Aucune r6vision: Lorsqu*une reponse est entree, elle Test 
de fapon Irremediable. Uetudlant ne peut pas corriger sa reponse, 
pas plus qu'll ne peut revolr les questions anterieures. Cette 
partlcularlte peut se Jiistifier d un point de vue psychometrlque car. 
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dans un test de langue, la premiere reponse est probablement celle 
qui rend le mieux compte de la performance reelle de Tetudlant. Par 
contre, certains etudiants pourralent se senllr frustres de ce que les 
strategies de revision qu'ils mettent en oeuvre habituellement 
(relecture et retours) soient devenues Inoperantes. 

— Dur6e variable: Au cours d'un test conventionnel, Tetu- 
diant peut generalement estimer ou il se trouve dans le deroulement 
temporel du test en se guidant sur la feuille de reponses ou le temps 
ecoule. Avec un test informatise adaptatif, ou souvent le nombre 
d'items peut varier et ou Ton n'etablit pas de limlte de temps, 
il est possible que le sujet alt Timpression d'etre perdu dans la 
structure du test. 



5,2.3 Au plan administratif 

Aussi seduisant soit-il du point de vue administratif, un 
systeme de testing adaptatif pose des problemes particuliers du 
point de vue de son implantation et de son malntien. 

— Temps et coQts de r^laboration: 11 nous a fallu 
plusieurs annees de travail pour mettre au point le systeme CAFTet 
nous ne pouvons toujours pas predire s'il peut etre utilise avec une 
populaUon differente de celle qui a senri a la calibration. La con- 
ception du test, la redaction des items, la cueillette des donnees, la 
salsie des donnees, Tanalyse des items, la calibration et la program- 
mation sont des etapes necessaires exlgeant des ressources 
humaines et financieres qui ne sont pas toujours disponibles. 
Comme il faut prevoir un echeancier assez long et un flnancement 
adequate il semble que le testing adaptatif se prete davantage a des 
utilisations a grande echelle. 

- Taille dc r^chantlllon: Meme dans les situations ou on 
peut compter sur temps et argent, il faut encore s'assurer de 
disposer d'un nombre de repondants suffisant. Bien sur, on peut 
reduire la taille de I'echantillon en uUlisant des modeles a un seul 
parametre (Lord 1983), mais comme le demontre Divgi (1986), ces 
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modeles rlsquent de ne pas etxe a la hauteur. Or, avec un modele a 
trois parametres. U est recommande de soumettre les items a un 
millier de personne. De plus, pour mettrc sur pied, une banque plus 
etendue, 11 faut prevolr un plan d'ancrage dont TapplicaUon peut 
s*averer tres lourde. 

- Coflt de rtqulpemcnt: Le systeme CAPT utilise des 
appareils de type IBM -PC a configuration mlnimale. Bien que le cout 
de ces appareils soit beaucoup moindre maintenant que lorsqu*ils 
sont apparus sur le marche, 11 faut non seulement prevoir le cout 
initial a Tachat ou les frais de location ma's aussi Tallocation 
de I'espace, TentreUen et la surveillance. Dans le cas ou Ton 
desire adminlstrer plusieurs tests a la fois, il faudra prevoir 
plus d*un appareil. Notons egalement que dans certains 
etablissements. ces appareils ne sont tout simplement pas dispo- 
nibles et que la mulUplicite des marques et des configurations 
ne fait qu'aggraver la situation. 

- Administration indivlducllc: Si radmlnistration in- 
dividuelle peut etre avantageuse dans certains cas, elle devient 
problematique lorsqu*il faut evaluer beaucoup d'etudiants slmulta- 
nement. L'utilisaUon d'un laboratoire de micro-ordinateurs peut 
resoudre ce probleme mais on y trouve rarement plus d*une 
vtngtaine de postes de ti-avail et les couts d'uUlisation peuvent etre 
tres eleves. 

- Fiabiliti de rtquipcment: Comme tout autre appareil, 
le mlcro-ordinateur n*est pas infalllible, surtout dans les conditions 
qui prevalent dans les mUieux scolaires. II faut done prendre en 
consideration la menace de panne, que ce soit a la suite d*un defaut 
ou d*un bris de Tappareil, d*une mauvaise installation ou d une 
Interruption de courant. 

- Fiabilit6 du loglciel: UelaboraUon de logiciels a des fins 
speciflques impllque souvent que les mises a Tessai ne peuvent pas 
toujours detecter certains problemes de programmation. II n'est done 
pas Impossible qu*avec tel equlpement et tel uUlisateur, le loglciel 
faille a la tache. 
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DONNEES COMPARATIVES 
EXPERIMENTALES 

Contrairement au chapitre precedent, ce dernier chapltre 
a une orientation plus experlmentale. Abordant successivement les 
plans psychometrique (les effets sur la qualite de la mesure) 
et psych ologique (les effets sur Tattitude et le comportement 
de Tetudiant), nous passerons en reVue les etudes compara- 
tives que nous avons recensees puis nous ferons le compte rendu de 
nos propres experimentations, Au plan administratif, nous 
verrons comment, en prenant en consideration les conditions dans 
lesquelles s*est deroulee notre experimentation, on peut envlsager 
Timplantation d*un test adaptatif dans le milieu de Tenseignement 
post-secondaJre. 



6. 1 Le plan psychometrique 

6.1.1 Revue des etudes comparatives 

II y une trentainc d*annees, certains chercheurs s*inte- 
ressaient deja aux utilisations de Tordinateur en testing et 
tentaient de degager les avantages psychometriques d*une admi- 
nistration informatisee. IJnn et oL (1969) passent en revxie les 
travaux effectues dans )es annees *60 sur les tests a branchement. 
En en cornparant differents types, ils sont eux-memes amenes a 
conclure en la superiorite d*un test infomiatise construit 
autour de la technique d*echantillonage sequentiel de Wald (1947). 
Sechar et Fletcher (1978) rappellent les experiences d'adminisLration 
de tests Informatises du debut des annees 70 et se livrent cux- 
meme a une comparaison au terme de laquelle ils concluent 
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que le fait d'adminlstrer le meme test de facon c^ventionnelle 
ou informatlsec n-amene pas de changements notables du point de 
vue statistique. 

Cherchant a verifier le prlncipe de rinvariance des items. 
Lord (1977b) slmule les resultats lu'cbtlendraient des etudiants avec 
un test .papier-crayon, fixe et unique pour les comparer avec ceux 
qu-Us obtiendraient avec un test compose d'items choisis au hasard 
par rordinateur. Bien que les differences soient assez tenues. il 
conclut neanmoins que la procedure conventlonnelle permet de 
mieux rendre compte des differences indivlduelles. Par contre. dans 
une autre etude (Lord 1977c). ce meme auteur observe qu'en 
simulant radmlnistration d'une epreuve d'aptitude verbale adap- 
tative (c*est-a-dire tenant compte cette fois du niveau du sujet). on 
obtient un niveau de precision equivalent a celui d'une procedure 
conventlonnelle et ce. avec deux fois moins d'items. 

Cest au groupe de recherche du laboratoire de testing 
adaptatif de rUniverslte du Minnesota qu'on dolt les etudes compa- 
raUves les plus poussees et les plus systematlques. Regroupes 
autour de David Weiss, ces chercheurs ont tente. vers la fin des 
annees 70. de preciser les avantages psych ometrlques du testing 
adaptatif. Ainsi Bejar et aL (1977) et Bejar (1978) ont essaye 
d'appuyer les positions theoriques du groupe sur le testing adaptatif 
avec des sujets reels. II ont compare les courbes d'lnformation de la 
version adaptatlve d'un test de biologle comprenant cinq parties avec 
les courbes d'lnformation de la version conventlonnelle. La version 
adaptatlve utillsait une procedure stradaptiue et une estimation de 
rhabllete parmaximum de vraisemblance. Les chercheurs ont trouve 
qu-avec la version adaptatlve. U sufllsait de 27 items pour attelndre 
le degre de precision du test convcntionnel original de 35 items. lis 
ont aussi constrult un test conventlonnel qui regroupait les 25 items 
les plus discriminants de la banque pour trouver qu'avec un test 
adaptatif on attelgnait une precision comparable avec seulement 17 
items. Ces conclusions ont amene les chercheurs a s'interroger aussi 
sur la valldlte de ces deux versions du test de biologle (Bejar et 
Weiss 1978). En anaJysant la grille de correlations obtenue entre 
deux formes (pre-test et post-test) de chaque version. Us ont obseive 
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que les tests conventlonnels et les tests adaptatifs mesuralent le 
meme constrult mais que ces demiers etalent plus valides pulsque 
la composante attribuec Terreur dc mesure etalent molns impor- 
tante. Toutefois, en ajoutant un test mesurant les aptitudes 
verbales. lis ont constate que les correlations etalent plus fortes avec 
le test adaptatif, ce qui laissalt croire que la comprehension des 
explications sur la consigne du test adaptatif pouvait avoir un 
effet sur les resultats. Weiss et Brown (1978) ont aussi 
compare les formes adaptatlves et coiV/en'aonelles d'un test de 
connaissances techniques comprenant 12 sous-tests. Cette fois-ci, 
ils utilisaient une correction bayesienne. lis ont trouve que les 
courbes d'informaUon etalent a peu pres Identiques mals que les 
versions adaptatlves employaient deux fois moins d'items. Par la 
suite. Gialluca et Weiss (1979) ont tente de determiner dans quelle 
proportion refficacite du test adaptatif dependalt de la procedure de 
selection des items par rapport a la strategic de passage d un sous- 
test a Tautre. II apparalssalt clalrement que meme en utiUsant le 
mieux possible les resultats des sous-tests precedents pour determi- 
ner Titem de depart du sous-test suivant, la strategic de passage 
d'un sous- test a Tautre Joualt un role marginal. C'etait done la 
capacite du test adaptatif de rapidement selectionner un item 
conforme au niveau reel du sujet qui expliqualt le gain realise par 
rapport aux tests conventlonnels. 

Par la suite Kingsbury et Weiss ont fait porter les interets du 
groupe vers les tests de «maitrlse» c'est-a-dire les tests de certifi- 
cation ou il s'agit de determiner si le candldat a atteint un seuil de 
passage pre-etabli. Abandonnant definitivement la procedure 
stradaptive et optant pour la correction bayesienne, les chercheurs 
(Kingsbury et Weiss 1979) ont constrult des tests adaptatifs dans le 
domalne de la mecanique. L'experience consistalt a comparer ces 
tests avec des versions conventlonnelles, en falsant varier le seuil de 
passage. II s'est avere que les decisions prises sur la base des resul- 
tats pour chaque version concordaient dans plus de 95% des cas, 
mais que les tests adaptatifs utilisaient de 30% a 60% moins 
d'items. Kingsbury et Weiss (1980a. 1983) se sont aussi demande si 
le cadre de la theorle du trait latent etait la seulc avenue pour ces 
tests de certification. II ont slmule trois types d'administration: le 
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test convenUonnel (a correction bayesienne et selon le nombre de 
reponses exactes). le test adaptatlf {a correcUon bayesienne) et un 
test appUquant la technique d'echantillonnage sequenUel de Waid 
(1947). Les deux demiers types se sont reveles plus efficaces. La 
technique d'echantillonage sequenUel etalt superieure dans la 
situaUon. peu vralsemblable. ou les items avalent tous des para- 
metres identiques. Autrement. la procedure adaptaUve permettalt 
d'arriver a la decision la plus Juste avec un minimum d'items. Ces 
resultats ont ete confirmes par une autre etude de Klngsbuiy et 
Weiss (1981). cette fois avf;C des sujets reels falsant un test de cer- 
tification en blologie: non seulement la version adaptaUve utllisait 
80% moins d'ltems que la version convenUonnelle. mals elle 
permettalt aussi de redulre le taux d'erreurs de classificaUon. Ces 
resultats sont d'autant plus probants qu'on avalt choisi les items de 
la version convenUormelle de fagon a cibler I'epreuve autour du seuil 
de passage. 

Le groupe de recherche de rUnlversite du Minnesota s'est 
aussi interesse a verifier la fiabilite et la validite concurrente des 
tests adaptaUfs. Klngsbuiy et Weiss (1980b) ont administre a 472 
etudiants unlversltaires, deux tests de vocabulalre convenUormels 
de 30 quesUons a cholx mulUple de meme que deux tests de 
vocabulalre adaptatifs uUlisant des banques differentes mals 
equlvalentes. II ont constate que pour attelndre le degre de fiabilite 
inter-formes des tests convenUonnels. 11 suffisait de 10 items avec la 
procedure adaptative. Enfln Martin et al (1983) ont voulu etabUr de 
fagon claire et definitive la superiorlte des tests adaptaUfs au plan 
psychometrlque. lis ont administre a plus de 250 recrues de la 
marine amerlcaine. deux tests convenUonnels d'aptitude verbale 
comprenant chacun 30 items. Les sujets ont aussi fait un test 
temoin convenUonnel de 50 items puis deux tests adaptatifs (a 
correcUon bayesienne). construits a partlr de deux banques 
regroupant des items dlfferents mals de meme nature. Trois 
conclusions ressortalent de leur etude: 

- pour attelndre une fiabilite inter-formes de .8 il fallait 
adminlstrer 1 7 items avec la procedure conventionnelle 
mais seulement 9 avec la procedure adaptative; 
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- 11 sufBsait de seulement 4 Items pour que la variance 
entre les resultats des formes equlvalentes adaptatives 
cesse d'etre significative alors qu'U en fallalt 14 pour les 
formes conventionnelles; 

— les tests adaptatifs montraient un indice de validite (la 
correlation Inter-foimes apres correction) superleur, 
surtout avec peu d'items, le gain en validite devenant 
negUgeable apres Tadministration du quinzieme item. 

Les recherches du groupe de rUniversite du Minnesota 
relativement a la validite ne sont neanmoins pas tout a fait saUs- 
falsantes. EUes revelent surtout que la procedure adaptaUve 
peut eliminer plus rapidement une partle de Terreur de mesure 
mais n'ecartent pas entierement la possibilite d'une variance 
speciflque a chacun des types de tests. Green et oL (1984) 
souUgnent que le mode de presentation peut avoir un effet sur 
le construit et meme le contenu dun test. Parexemple, Biskin 
et Kolatchin (1977) constatent, dans la mise au point d'un test 
de personnallte, que le nombre d'omissions peut varler d'une 
version a Tautre et qu'U faut done s'assurer que le fait qu'il 
suffise d'appuyer sur une touche n'incite pas les sujets a 
annuler plus facilement une reponse. Par contre. Green (1988) 
examine les correlations entre les diverses parUes d une batterle 
de tests d'aptitude administres de fagon conventionnelle et 
selon une procedure adaptaUve; il trouve que la structure 
factorielle ne varie pas et conclut que le construit est identique. 
Qu'enest-U des tests delangue?Canale (1981b) affirme qu'un effet 
de methode est toujours susceptible de se manifester dans un 
test de langue et reconnait cinq variables: le mode (ecrlt ou 
oral), le type de reponse. la procedure d'administration, 
renvironnement (physique et affectif) et le mode de correcUon. 
Shohamy (1984) par exemple. rapporte que le type de reponse (a 
choix multiple plutot qu'ouverte ou en LI plutot qu'en L2) 
affecte les resultats d'un test de lecture. II est certain qu'on ne 
peut pas toujours isoler la variable responsable de Teffet de 
mcchode mais il est possible de verifier Timportance de cet 
eflet. 



180 



6.1.2 Comparaison entre les administrations 

Au plan psychometrique, notre experlmentaUon visait a 
etablir des comparaisons entre les differentes versions de notre 
propre test afln, d'une part, de verifier la comparabilite des 
resultats par la valldite inter-formes et, d'autre part, de comparer la 
flabilite c'est-a-dire la marge d'erreur des versions Tune par rapport 
a rautre. Contrairement a plusleurs recherches que nous avons 
rapportees, nous nous en sommes tenu non seulement a des 
reponses reelles mals aussl a des Instruments dont la construction 
reflete les contraintes pratiques quljouent dans Tacceptabilite d un 
test de classement en langue seconde. Ainsi, en ce qui conceme les 
versions «papier-crayon», leur longueur (60 items) correspond 
a un maximum acceptable pour ce type de test. La correcUon 
de ces versions se fait en comptant le nombre de reponses 
correctes puisque ni une correction bayesienne ni une cor- 
rection par maximum de vralsemblance ne sont envisageables dans 
la pratique. De plus, nous ne nous interesslons pas tant au score 
qu'au niveau auquel ce score correspondait dans Techelle que nous 
avons prealablement etablie. Pour ce qui est des versions 
informaUsees. nous ne conslderions que le niveau final et ce 
blen que nous soyons consclent que la procedure de correcUon 
puisse varler selon que restlmaUon par maximum de vralsem- 
blance a reussi ou non. En d'autre termes, nous avons 
cherche a reproduire la situation qui se presente effectivement 
quand 11 s'aglt de choisir quelle version est la plus approprlee. 
Nous n'avons done pas essaye de mlnlmlser la composante 
tmethode»; au contralre. nous nous preoccuplons d'en deter- 
miner rimportance. 



6.1.2.1 Administrations simidees 

L'unlte de developpement du systeme CAPTofTre la posslblllte 
de slmuler des seances de tesUng adaptatlf solt par stratlflcaUon 
(STRAT). solt par correspondance (MATCH). Pour les sujets qui ont 
repondu a tous les Items de la banque (rechantlllon d'analyse de la 
version 2). 11 est done possible de predlre le resultat a une 
version Informatisee. Par allleurs. les resuUats des sous-ensembles 
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que representent les versions 3.1 et 3.2 etaient toujours dlspo- 
nlbles. Nous avons done retire 50 feuilles de reponses de Techan- 
tlUon d'analyse de fa^on a obtenlr une distribution a peu pres 
equlvalente des quatorzc niveaux de maitrise. Nous n'avons pas 
retenu les sujets qui n'avaient pas complete les epreuves ou ceux 
dont la configuration de reponses avait ete Jugee inadequate par 
rapport au modele. 



TABLEAU 6.1 
Repartition de nivemiix selon Thabilete 



Valeur 


Niveau 


Habllet^ 


Score 


01 


Vral debutant 




-4 


0 " 


-1. 


2 


de 0 A 21 


02 


Vrai debutant 


+ 


-1 


2 


-0. 


88 


de 22 A 25 


03 


Faux debutant 




-0 


88 " 


-0. 


6 


de 26 A 28 


04 


Faux debutant 


+ 


-0 


.6 " 


"0. 


4 


de 29 A 31 


05 


Xnterm^dlaire 


I 


-0 


4 " 


-0. 


2 


32 et 33 


06 


Interm^dlaire 


1 + 


-0 


.2 ^ 


-0. 


05 


34 er 35 


07 


Interm^dlaire 


II 


-0 


.05 " 


0. 


05 


36 et 37 


08 


Interm^diaire 


11 + 


0 


.05 " 


0 . 


2 


38 et 39 


09 


Interm6dlaire 


III 


0 


.2 ^ 


0. 


4 


40 et 41 


10 


Interm^dialre 


III + 


0 


.4 " 


0. 


6 


de 42 A 44 


11 


Xvanc6 




0 


.6 ^ 


0. 


88 


de 45 A 47 


12 


Avanc^ + 




0 


• 88 " 


1. 


2 


de 48 A 51 


13 


Tr^s avanc^ 




1 


.2 


2. 


0 


de 52 A 59 


14 


Tr6s avanc* + 




2 


.0 


4 


0 


60 



Le test Informatise distingue quatorze niveaux solt les 
sept niveaux que nous avons deja deflnis. plus six niveaux mitoyens 
(les cas frontieres) et un niveau superleur (les scores parfaits). 
La dMsion doit theorlquement partager la population en un 
nombre egal de sujets. Nous avons remanie la table de conversion 
que nous avlons etablle pour les versions «papier-crayon» (cf 
tableau 3.14). Uequivalence avec les scores bruts s'est effectuee 
selon la meme technique que celle qui avait servi a la 
premiere division c'est-a-dire de fagon a mlnimiser les ecarts 
entre les versions 3.1 et 3.2. Nous avons alors ctabll le niveau 
auquel ces sujets auraient ete classes en ne considerant que les 
items retenus pour les versions 3.1 et 3.2. Afln de pouvoir 
calculer les correlations entre le classement auquel conduit 
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chaque type de tests, on a asslgne ensuite une valeur numerique a 
chaque niveau. La repartlUon des quatoize nlveaux s'etablit 
selon le tableau 6.1. 

Nous avons ensuite procede a 50 simulations de 
seances de tesUng adaptatif par stratificaUon en transcrivant 
ce qui apparalssait sur la feuille de reponse au numero corres- 
pondant a ntem presente. Nous avons repete ToperaUon avec la 
procedure par correspondance. 



6.1.2.1.1 Les correlations entre les formes 

Le tableau 6.2 montre les moyennes et les ecarts types 
obtenus avec chaque test. II apparait que les deux versions 
informatisees sous-estiment rhabUiie des etudiantf. Certains 
etudiants pourralent etre classes a un niveau plus bas par 
rapport au classement des tests conventionnels (versions 3. 1 et 3.2). 
Le test t paire (avec SPSS-PQ confirme par allleurs que les 
ecarts entre les tests utilisant le meme mode de presentation ne sont 
pas significatifs (p>.l). Par contre. les ecarts entre la version 
par StratificaUon et Tune ou Tautre des versions «papier-crayon» le 
sont (p <.005). 



TABLEAU 6.2 
Moyennes et ecarts types des simulations 



Vers ion 


Moyenne 


Ecart-type 


3.1 


7.08 


4 .19 4 


3.2 


7.34 


4,429 


STRAT 


6.50 


4.032 


MATCH 


6.68 


4.058 



n = 50 

Notons qu'etant donne que les versions 3.1 et 3.2 sont 
paralleles. U n'est pas ctonnant que I'ecart entre leur moyenne 
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et leur variance ne soit pas signiflcatif. A cet egard, la corre- 
lation entxc les deux versions conventionnelles peut etre con- 
sideree commc un indice de la flabilitc entre les deux formes, 
une fois realisee la conversion des scores bruts en niveaux de 
maitrise. 



TABLEAU 6.3 
CorrcUtions entre les Tersions 





3.1 


3.2 


STRAT 


MATCH 


3.1 




.969 


.947 


.907 


3.2 


.969 




.945 


,915 


STRAT 


.948 


.945 




.932 


MATCH 


.907 


.915 


.932 





n = 50, p < .001 



Uexamen de la grille des coefficients de correlaUon du 
tableau 6.3 revele que malgre la difference de moyenne, le test 
adaptatif par stratiflcaUon montre une correlaUon relaUvement 
elevee avec les deux versions conventionnelles (r >.94). Par 
contre. les correlations avec la version par correspondance sont 
plus falbles. II faut rappeler que Terreur acceptable qui servait 
de critere d'airet, etait plus grande. dans la version MATCH. 
II se peut done que la difference de flabilite explique le fait 
que les coefficients impliquant la version par correspondance soient 
moins eleves. 

Le diagramme de dispersion de la figure 6.1 montre que, 
comme prevu. les resultats des versions 3. 1 et 3.2 pour les 50 sujets 
retenus. se concentrent autour de la ligne de regression. Les 
diagrammes des figures 6.2 et 6.3 montrent comment se comparent 
le classement obtenu avec la version par stratification et celui 
obtenu avec les versions conventionnelles. Les points suivent 
de pres la ligne de regression mals s'en ecartent entre les 
niveaux 8 a 12 (Intermediaires forts). Dans cette region, le 
classement du test par stratification scrait moins sur que celui 
des versions conventionnelles. 
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FIGURE 6.1 
Diagrammc dc dispersion dcs Tcrsions 3 




version 3.2 

Corr*lJtton .»tl74 R* .93846 
Erreur-type 1.05111 Slg. .0000 
. Intetcept(Etreur) . 34768< .28986 ) 
P«nt«(Err«ur) . 917 21 (. 03 39 0 ) 



/ 



FIGURE 6.2 
Versions 3.1 ts Test par stratification 




0 4 • 12 



v«tslen 3.1 

Cort*l«tlOft .94755 R» .89716 
Err«ur-typc 1.30189 Slg. .0000 
Intercept (Brt«ur) .05004 ( .36400) 
Pente(lrreuc) .91101( .04435) 
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FIGURE 6.3 
Versions 3.2 ts Test par stratification 




^ — I — ' — I — — ^~rr 

0 4 8 12 

Verm Ion 3.2 

CoccAlatlon .94 4 50 .89223 
Ecreuc-type 1.3372S Slg. .0000 
Int«cccpt(Ccr<uc) 18874 (. 36871 ) 
PcnteOrrcur 1 . 15914 ( .04313 ) 
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II est beaucoup plus difficile de localiser les differences entre 
le test adaptatif par correspondancc et les versions conventionnelles. 
En examinant les diagrammes des figures 6.4 et 6.5. 11 est clair que 
les points s'ecartent considerablement de la ligne de regression. Cela 
signifie qu'il y a des ecarts importants entre les deux evaluations de 
certains sujets: Jusqu'a quatre niveaux dans certains cas! 11 semble 
bien que Terreur de mesure dans le cas de cette procedure soit trop 
grande pour conduire a des decisions quant au niveau d'un 
etudiant. II n'est done pas etonnant que le regroupement des points 
soit assez diffus dans le diagramme de la figure 6.5 ou Ton compare 
les deux tests informatises. II convient toutefois de noter que comme 
les moyennes des resultats foumis par ces deux types de tests sont 
similalres, la pente de la ligne de regression se rapproche de 1 (soit 
un angle de 45°) et Tintercept se rapproche de 0. II est done permis 
de croire que n'eut ete de Terreur de mesure, la correlat' jn entre les 
deux tests informatises aurait etc plus forte. Enfin. il faut noter qu'il 
semble y avoir une meilleure correspondancc entre les deux 
procedures aux niveaux extremes de Tcchelle. 



FIGURE 6.4 
Versions 3.1 ts Test par corrcspondance 




0 4 • 12 



Vtritloii 3.1 

CorrAltttlon .90700 .•22«4 
Crrttur-typ* 1.726«f Slq. .0000 
Intercept (lxr«ux) .4««02( .48277) 
Pttntttdrreurl .•77(l( .0&SS3) 



FIGURE 6.5 
Versions 3.2 ts Test par correspondance 

, i I I 1 ■ I — I « — " » I 



2 1 J 




0 4 I 12 



vermin 3.2 

CotrAletlon .^1457 R» .•3«4 
Crr«ur-typ« 1.6SI15 flq. .0000 
Intercept (Irrtur) .S2956( .45727) 
Pentedrreur) .•3794( .05341) 
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FIGURE 6.6 
Versions informatUces (STRAT rs MATCH) 



« * » * * ' ' * 




^ — 1 — ' — 2 — ^~TT 

0 4 8 12 

STRATIFICATION 

Correlation .93180 .8b825 
Erreur-type 1.48817 Sig* .0000 
intercept (Brreur ) , 58335( . 40221 ) 
Pente(Brreur) ,93785( .05273) 



Le fait que les correlations solent toutes superleures a .9 
pourrait lalsser croire qu*on peut Interchanger les resultats de ces 
quatre types de tests. Toutefols, 11 faut garder a Tesprlt que la 
transformation des scores bruts en un nombre limite de categories 
et le fait que les tests mesurent une large gamine d'habUete sont 
deux facteurs qui tendent a gonfler les coefficients de correlation. II 
faut done aussi prendre en consideration le nombre d*accords et de 
desaccords par rapport au nombre de decisions a prendre pour se 
rendre compte de Feffet des ecarts entre les resultats des quatre 
types de tests. Lc tableau 6.4 indique le nombre de decisions ou les 
niveaux de classement ne concordent pas. 
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TABLEAU 6,4 
Nombre de desaccords siur le nireau 



Version 3.2 



STRAT 



MATCH 



Version 3.1 

1 niveau ou 

2 niveaux ou 

3 niveaux ou 



29 (58%) 
8 (16%) 
2 (4%) 



32 (64%) 
10 (20%) 
4 (8%) 



31 (62%) 
19 (38%) 
10 (20%) 



MATCH 



32 (64%) 
13 (26%) 
6 (12%) 



1 niveau ou * 

2 niveaux ou 

3 niveaux ou * 



35 (70%) 
18 (36%) 
12 (24%) 



STRAT 



1 niveau ou 'f 

2 niveau:: ou 

3 niveaux ou 'f 



35 (70%) 
11 (22%) 
6 (12%) 



On voit que dans la majorite des cas (entre 58% et 70%), le 
niveau auquel un etudiant serait classe avec un test donne ne 
correspond pas au niveau auquel il serait classe avec un autre test. 
II est evident qu'aucun de ces instruments n'est assez precis pour 
permettre un classement satlsfalsant avec 14 niveaux. Par centre, 
comme dans la plupart des programmes de langue, on ne distingue 
pas plus de sept niveaux, ce sent plutot les ecarts de deux niveaux 
ou plus qui peuvent causer des problemes. Quant aux ecarts de plus 
de trois niveaux ou plus, lis devralent etre exceptionnels. Dans 
cette perspecUve, seules les versions 3.1 et 3.2 seraient inter- 
changeables et pourraient, par exemple, servir a mesurer le 
progres realise sur une annee. On note de nombreuses divergences 
entre les resultats obtenus avec la procedure MATCH et les autres 
resultats. Pourtant, les deux tests adaptatlfs donnent aussi des 
resultats assez proches blen qu'ils pourraient difllcilement 
satlsfaire les exigences dc tests paralleles. 

6.L2.1.2 Les courbes dlnformation 

Green (1984) signale que les indices de la theorle classique 
s'averent peu uUles pour determiner la fiabilite des tests adaptatlfs 
car ces Indices portent sur Tensemble des sujets. II propose un 
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indlce de flabUite marginale et un indice de flabUite conditlonnelle en 
precisant qu'il s'agit d'approximatlons plus ou molns Justes. De fait, 
dans le cadre de notre etude comparative, il semble beaucoup plus 
pertinent d'examiner les courbes d'inforaiation. En effet, nous 
connalssons deja la flabUite relative des deux versions «papier- 
crayon» puisque les courbes d'infomiation ont servl a construire ces 
deux versions paralleles. 

Nous voulions connaitre Tinfonnatlon que pouvalent 
foumir les procedures adaptatlves pour chacun des sept 
niveaux principaux. Pour chacun des modes d'administratlon, nous 
avons d'abord elimlne, paraii les 50 simulations, celles qui 
avaient mene a un ciassement dans une categorie mltoyenne (Vrai 
debutant + .... Tres avance +). En evltant d'uUliser une bande 
d'habilite trop large, nous estimlons donner une idee plus juste de 
la flabUite a un niveau parUculier. Exploitant la proptlete d'additlvite 
de la fonction d'information, a I'alde d'une variante du programme 
TICC, nous avons fait la somme de rinforaiatlon obtenue a chacun 
des sept niveaux, pour chaque sous-test dont le resultat flnal 
correspondait au niveau considere. Nous avons ensuite fait les 
moyennes de fagon a pouvoir tracer la courbe d'informatlon pour 
sept sujets typiques, representant chacun un niveau, de «Debutant» 
Jusqu'a «Tres avance*. On pcut alnsi visualiser la flabilite des tests 
adaptatifs selon les niveaux, par rapport aux versions 3.1 et 3.2. 

Les flgures 6.7a, 6.7b et 6.7c montrent les courbes d'infor- 
matlon pour le sous-test #1 (comprehension). Chez les vrais et les 
faux debutants (flgure 6.7a), ou volt que dans les deux versions du 
test adaptatif, la courbe d'infomiation culmine non pas au niveau 
auquel le programme a evalue le sujet, mals au niveau superieur. 
On peut expliquer ce phenomene de deux fagons. D'une part, quand 
on s'approche des niveaux extremes de TecheUe, Testimatlon de 
rhabilete du suJet nc sc situc plus au centre de I'lntervalle de 
confiance. En d'autres temies, un debutant n'auralt pas pu etre 
classe plus bas que Ic niveau debutant mals aurait pu etre classe a 
un niveau superieur de sortc qu'on doit utiliser un certain nombre 
d'items pour ccartcr cettc dcmicrc hypothesc. D'autre part, on 
trouvc peu d'itcms tres faciles dans la banquc; le programme doit 
done recourir a des items plus dlfficUes pour arrlver a accumuler 

'J kj 
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rinformaUon necessalre. On peut done penser que raddition d'items 
ayant un parametre de discrimination eleve et un paxametre de 
difflculte tres bas penncttrait de mleux cibler le test adaptatif au 
niveau des debutants. Le nombrc relativement grand d'items 
presentes reflete cette lacune. Chez les debutants et les faux 
debutants, il a fallu en effet une moyenne de 11.36 items {n =11) 
avant Tarret de la procedure avec le programme STRAT et 10.7 items 
(n = 11) avec le programme MATCH. Notons par aiUeurs que la 
procedure par stratification peraiet d'obtenir, au niveau tPaux 
debutant*, beaucoup plus d'information que la version par corres- 
pondance ou que les deux versions convenUonnelles. Au niveau 
tDebutanti. les deux tests adaptatifs sont plus precis que les 
versions conventionnelles. 



FIGURE 6.7a 
Courbes d*infonnation du ftous-test #1 




1.5 



DfiBUTANTS 



Avec les ntveaux intemiediaires. (figure 6.7b). on volt 
clairement que les versions conventionnelles sont beaucoup 
plus precises. Cependant. avec une moyenne de seulement 7.33 
items {n =9). la procedure STRAT permet d'obtenir un resultat d une 
precision etonnante. Par contre. la procedure MATCH donnc 
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beaucoup moins d'informatlon meme si clle utilise plus d'ltems 
(moyenne de 8.27. n =11). Cela tlcnt au fait que la procedure par 
stratification tend a ne presenter que les items Ics plus discri- 
minants. Cest pour cette ralson que nous avons du etablir un seull 
d'erreur acceptable moins eleve pour la procedure par corres- 
pondance qui. quant a elle. utilise generalement unc plus grande 
varlete d'items. Par allleurs. il ne faut pas dormer trop d'importance 
au fait qu'avec la procedure de stratification, le test de niveau «Inter- 
mediaire scmble plus facile que celui du niveau «Intermedialre 
cela s'explique du fait qu'on ne trouvait qu'un seul sujet classe a ce 
niveau. De meme. la forme plus aplatlc du test pour «Intermedialre 
III» avec la procedure par correspondance peut etre attribute au 
nombre llmite de sujets a ce niveau. D'ailleurs. 11 s'agit la d'un 
probleme serleux qui s'est manifestc au cours des experimentations: 
bien que la theorie predisait une distribution a peu pres egale du 
nombre de sujets entre les differents nivcaxax. il y a beaucoup moins 
de representants aux niveaux intermedialres (de -0.5 a 0.5). Cest 
done Chez les intermedialres qu'on risque de trouver le plus grand 
nombre de disaccords entre les classements obtenus a partir des 
differents tests. 

FIGURE 6.7b 
Couibcs dlnformatlon du sous-test #1 

12 

11 3.1 




1.* -ilo ^oTs 0 oT$ iTo ITi 

HABXLITi 

ttiAT 



INTERMEDIAIRES 
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Dans la figure 6.7c, on observe, particullerement chez les 
sujets de niveau -Tres avance» avec STRAT, un phcnomene inverse 
a celui que nous avons note chez les debutants. En effet. la courbe 
d'informatlon culmine au niveau precedant celui auquel est estimee 
rhabilete des sujets. Les memes raisons peuvent etre invoquees: 
deplacement par rapport a I'intervalle de confiancc et manque 
d'items aux niveaux extremes. D autre part, ce qui frappe davantage 
chez les avances (niveaux «A\ance» et Tres avance»). c'est que 
rinfomiatlon obtenue avec les quatre types de tests varie peu. On 
peut done dire qu'a ces niveaux. la fiabilite est comparable. Cepen- 
dant. alors que les versions conventionnelles utillsent 20 items, le 
programme STRAT n'en utilise que 9 en moyenne (n =8) et le 
programme MATCH que 8 (n =8). 



FIGURE 6.7c 
Courbcs d'information du sous-test #1 

12 




AVANCES 



Le trace des courbes pour le deuxieme sous-test (enoncc 
approprie) qu*on trouve dans les figures 6.8a. 6.8b et 6.8c. illustre 
un des avantages du testing adaptatlf. Lors de la creation de la 
version «papier-crayom. nous avions constate certains problemes 
relies a la faible discrimination de Tensemble des items de cette 
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partie par rapport a cetix des autxes sous-tests. Plusieurs items des 
versions 3. 1 et 3.2, n'apportent qu'une contribution marginale a la 
mesure; quelqucs-uns peuvcnt meme, pour une habilete donnec. 
dimlnuer la fonctlon d'lnformatlon. Dans une telle situation, la 
procedure adaptatlvc permet de ne presenter que les items suscep- 
tlbles de reduirc Terreur dc mesure pour un niveau donne. 

On constate ainsi que pour le sous-test #2, les deux proce- 
dures adaptatives permettent d'obtenlr sensiblement la meme 
precision en utilisant beaucoup moins d'items. 

Le nombre d'items utilises par les tests adaptatlfs varle 
peu d'un niveau a Tautre ou d'une procedure a Tautre: Avec 
STRAT, on utilise en moyenne 1 1.24 items (n =21) et avec MATCH. 
1 1 .32 (n =25). Ces nombres depassent toutefois ce qu'on trouve pour 
les procedures adaptatives des autrcs sous-tests. Etant donne, la 
falble discrimination de certciins items, on atteint souvent le 
maximum possible de 12 items. La procedure est alors interrompue 
avant que Ton alt atteint le niveau d'information vise. Enfin, comme 
pour le premier sous-test, on peut observer que le point maximum 
des courbes d'informatlon pour les nlveaux extremes (debutants et 
avances) se deplace vers le centre de Fechelle. 

FIGURE 6.8a 
Couibcft d*infonnation du sous-test #2 
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FIGURE 6.8b 
Couibcs d*information du sous-test #2 
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Les courbes d'lnformatlon du sous- test #3 (phrases a trou) 
montrcnt une situaUon ou le test adaptaUf permet, avec molns 
d'items, d'obtenlr une fiabilite non seulement egale mais meme 
superleure a celle d une version •papier-crayon», Le nombre d'ltems 
requls par la procedure par stratification varle peu d'un niveau a 
rautre: la moyenne est de 10 Items (n =28). Pourtant avec deux fois 
moins d'ltems, le test STRAT permet de recueillir plus d'informatlon 
que les versions conventionnelles que ce soit chez les debutants 
(figure 6.9a), chez les intermedialres (figure 6.9b) ou chez les avances 
(figure 6.9c). On est done loin de la distribution rectangulaire de la 
fiabilite que predJt la theorle. II faut cependant noter que la fiabilite 
etonnante qu'on observe au niveau •Intermediaire II» pourrait etre le 
prodult du hasard puisqu'avec STRAT, ce niveau n'etait represents 
que par un seul sujet. 

La procedure par correspondance, quant a elle, utilise un peu 
moins d'items, soit une moyenne de 9,28 (n =29) pour Tensemble des 
niveaux. Neanmoins, on recueille beaucoup moins d'informaUon 
qu'avec la procedure par stratification. Par rapport a cette demiere et 
par rapport aux tests conventlonnels. qui apportent nettement plus 
d'informaUon au niveau •Intermediaire III», on trouve avec MATCH 
une dlstrlbuUon plus rectangulaire de la fiabilite. AlnsL la fiabilite est 
plus elevee chez les debutants et les avances. Par contre, elle tend a 
etre moins grande chez les sujets intermedialres. Enfln, ll convient de 
rappeler quid encore, on peut observer la centralisation des courbes 
des niveaux extremes vers le centre de Techelle. 

En conclusion, Texamen des trois courbes d'informatlon nous 
montre done que malgre la centralisation des courbes d'lnformaUon 
aux niveaux debutants et avances, les tests adaptaUfs qui s'adressent 
aux sujets appartenant a ces niveaux sont habituellement deux fois 
plus courts que les test convenUonnels et leur precision egale (avec la 
procedure par correspondance) ou superleure (avec la procedure par 
stratification). Par contre, aux niveaux intermedialres, les items 
supplementaires que comptent les versions conventionnelles contn- 
buent a rendre le test plus precis sauf pour les sous-tests #2 et #3 
admlnistres par straUftcaUon. Le gain en fiabilite avec les versions 3. 1 
et 3.2 au niveau intermediaire peut etre important (par exemple, par 
rapport au sous-test #1 par correspondance) ou negligeable (par 
exemple, par rapport au sous-test #2 par correspondance). 




2 A) 
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FIGURE 6.9c 
Courbes d*inform«tion du sous-test #3 




AVANCfeS 



6. 1 .2.2 Administrations experimentcdes 

La superlorlte de la procedure par stratlflcatlon par 
rapport a la procedure par correspondance tlent prlncipalement 
au fait que le programme STRAT construit une grille ou sont 
ordonnes pour chaque niveau, les dix items les plus susceptlbles 
d'apporter de rinformation. Ce ne sent done que les items les plus 
- discriminants qui seront presentes. La procedure MATCH donne 
plus d'importance au parametre de difflculte de sorte que les 
items varlent davantage d*un sujet a Tautre. Toutefois. avec une 
banque comportant peu d'items. dont certains par surcroit montrent 
un parametre de discrimination tout juste acceptable, la procedure 
MATCH risque de demander pius d*items pour reduire Terreur a la 
meme marge. 

Etant donne la composition de la banque. nous avons cholsi 
le programme STRAT pour Texperlmentation du test informatisc 
dans une situation authentique. Nous cherchions a conflrmer 
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reffet de methodc que Tanalysc precedente avalt decele. Get 
cssal a eu lieu au printemps 1988. Une centaine d'etudlants 
boursieis inscrlts a lUniversite York a Saint-Georges devaient 
falre un test au debut et a la fin d un programme intensif de six 
semaines. Une parOe d'cntre eux ont fait le test informaUse 
comme pre-test (groupe 1) tandls que Tautre partie a fait la 
version 3.1 (groupe 2). Les sujets du groupe 1 etaient en grande 
partie des etudiants deja inscrlts a runtversite York, pour qui 
le pre-test ne risquait pas de changer rattribuUon de cours. 
II n'y a aucune raison de croire que cette division, fort pratique, ait 
pu etre moins adequate qu'une division purement aleatoire. A la fln 
du programme, les etudiants ont regu, en guise de post-test, la 
version qu'll n'avaient pas regue au debut: STRAT pour ceux qui 
avalt fait la version 3.1 et vice-versa. A cause de retards et 
de departs prematures du programme, certains etudiants n'ont fait 
qu'un type de test; nous n'avons retenu que les 83 etudiants qui 
avaient fait les deux types tests. La version conventionnelle se 
donnait dans deux salles de classe et on avalt prevu environ 
une heure et demie; la version informatlse se dormalt dans un 
laboratoire de micro-ordinateurs par sous-groupes qui changeaient 
aux demi-heures. 

Le tableau 6.5 montre les moyermes obtenues par chaque 
groupe a la suite des deux administraUons. Ainsi que nous Tavlons 
releve lors des simulaUons, les etudiants qui avaient regu la version 
convenUonnelle au pre-test (groupe 2) semblent avoir ete favorlses. 



TABLEAU 6.5 
Pre-test et post-test (St-Georges) 





n 


Moyenne 


Ecart-type 


PRB-TBST Bnsenble 
Gcoupe 1 
Groupe 2 


83 
47 
36 


7.325 
6.936 
7.833 


3.351 
3.674 
4.286 


POST-TEST Bnseable 
Gcoupe 1 
Groupe 2 


83 
47 

36 


9.157 
9.447 
8.778 


3.225 
3.133 
3.348 
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Les resultats au post-test nc sont pas aussi clalrs car Us 
refletent a la fols les progres realises par les apprenants et Teffet du 
type de test administre. 

Solt ^ 4 : Resultats du pr6-test du sujet J du groupe i 

j» : Resultats du post-test du sujct J du groupe i 
j» • Difference entre Ic pre-test ct le post-test 

« y4^« - y4j» 

:^ - 1/ . • .n* ; 1 - 1, 2 . 

Afin de neutraliser la variation entre les suj ets nous utUlsons 
une analyse de variance a mesures repetees en utUisant le modele 
sulvant: 

ou x: - «i «» - 0 €t " N(0,(r*) 

On verifie deux hypotheses: 1 ) Ho : M ■ 0 

2) Ho 0 



TABLEAU 6,6 
Analyse de Tariance: pre-test et post-test 



Source 
de 

variation 


Some 

des 
carr4s 


D«gr4s 

de 
liberty 


Hoyenna 

des 
car r 4s 


F 


Siqni£i-- 
cation 
de P 


K I'int4rieur 
des cellules 


337.63 


81 


4.17 






CONSTANTS 


243.35 


1 


243*35 


58.38 


.000 


GROUPE 


50.00 


1 


50.00 


12.00 


.001 



La procedure MANOVA de SPSS-PC nous foumlt les resultats 
du tableau 6.6, La verification de la constante (p) sert a examiner la 
valldite de la premiere hypothese nuUe qui est clairement rejctec du 
fait que F = 58.38, ce qui est tres eleve (p = .000). Cette premiere 
observation est cncourageante pour les organisateurs puisqu'elle a 
trait a refflcaclte du programme. Toutefois. elle nous Interesse peu 
sinon pour confirmer la validitc du test et la pertinence de la 
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division iniUale a sept nlveaux. 11 est en effet raisonnable 
qu'en un programme intenslf de six semaines (ou un programme 
reguller d'une annee scolaire) les meilleurs etudlants aient pro- 
gresse d'un niveau. 

La verlficaUon de la variable .GROUPE. revet un plus 
grand Interet car elle permet de verifier la deuxieme hypothese. 
ceUe qui conceme I'ordre des tests c'est-a-dire le mode dad- 
minlstraUon. Comme F = 12. il s'agit d'une source importante de 
variaUon. Avec un resultat aussi signlllcatlf (p<.001). on con- 
firme. lors d'une admlnistraUon reelle. la presence dans le test 
convenUonnel et Ic test informaUse (STRAT). d'un effet de 
methode que nous avions observe avec les simulaUons. Cela 
impUque qu'a molns de pouvolr isoler la variaUon attrlbuable a 
I'instrument. on ne peut pas uUllser Indifferemment I'une ou 
I'autre des versions pour mesurer I'efficacite d'un programme. Cela 
implique aussi que dans le contexte de I'experlmentation. 11 est 
tres difficile de mesurer les progres Indlviduels ou de comparer les 
sujets entre eux. 

On peut s'lnterroger sur les causes de cet effet de 
methode. On peut penser que le mode de presentaUon (ecran vs 
questionnaire) seralt responsable de la variaUon. On peut aussi 
penser que le mode de reponse (clavier vs feullle de reponse) 
contrlbuerait a ce facteur de methode. Toutefols. 11 nous 
semble que c'est plutot du cote du mode de correction qu'll faut 
chercher la reponse. Les versions «papier-crayon. utilisent un 
nombre fixe d'ltems. toujours les memes dun sujet a I'autre, 
et sont habltueUement corrlgees en comptant le nombre de 
reponses exactes. Blen sur. ce score peut eventueUement etre 
transforme. notamment en le normallsant (score z). Les 
versions adaptaUves utilisent un nombre variable d'ltems. par 
deflnlUon dlfferents d'un sujet a I'auU-e. et sont corrlgees 
electronlquement par des techniques qui Uennent compte de la 
configuration des reponses a partir des parameU-es des items. 
Le fait d'exprlmer les resultats des versions adaptatlves en 
termes d'ecarts par rapport a la courbe normale ne garantlt pas 
necessalrement une equivalence stride avec les scores norma- 
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lises des versions convenUonnelles. La recherche d'une echelle 
commune pour les tests conventlonnels et adaptatifs est un 
probleme complexe auquel nous n'avons pas trouve de solution 
tout a fait satisfalsante et qui rend difficile toutc comparaison 
entre les deux types de tests. II est possible que des etudes 
plus approfondies sur ces aspects statisUques puissent mener 
a une soluUon a rincompaUbllite des modes de selection. II 
faut neanmoins reconnaitre que ces etudes pourraient aussi mettre 
en cause la pertinence de la theorle du trait latent dans ce 
genre d'applications. 



6.2 Le plan psychologique 
6.2.1 Les etudes comparatives 

Outre les caracterlstiques psychometrlques. il faut consi- 
derer Taspect psychologique. A quoi bon mettre au point un 
instrument de mesure extremement precis si ses efTets sur 
rapprenant sont desastreux? II faut done se demander quel 
impact le mode d'administraUon peut avoir sur les attitudes 
et les comportements pendant le test. Par allleurs, il est clalr 
que les plans psychometrique et psychologique sont interrelies 
et que les eflets psychoaffectifs peuvent eventuellement avoir 
des incidences sur la qualite de la mesure. Pourtant, ce qui 
nous interesse ici ce ne sont pas tant les resultats en tant 
que tels mals plutot les reacUons des sujets c'est-a-dire les 
sentiments qu'eprouvent ces sujets face a Tinstrument, les 
perceptions qu'Us en ont et les comportements qu'Us adoptent 
au cours du test. On salt que dans le cas d'un test de 
langue ces considerations sont prlmordiales. que les criteres 
d'ordre purement docimologique ne sufflsent pas (Shohamy 
1982). 

II ne faut pas s'etonner des conclusions de Rushinek et ai 
(1985) selon lesquels les etudiants qui reussissent moins blen a un 
cours informatise ont une perception plus negative de Tenseigne- 
ment assiste par ordinateur. Par contre. dans le cadre du testing 
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adaptatif ou la sensation d'echec devrait etre moins frequente 
qu'avec un test conventlonnel, on peut se demander si cette 
observation est generalis':.ble. 

En faisant la revue des rares etudes sur les aspects 
psychologiques des tests informaUses, Koch et PaUence (1978) font 
ressoitir Taspect anxlogene de ces tests. Les reponses d'etu- 
diants de colleges amerlcains a leur quesUonnaire d'atUtude 
apres radmlnlstraUon d'un test adaptatif et d'un test conven- 
tlonnel montrent que la preference va vers le mode d'administration 
qui genere le moins d'anxiete: les ctudiants preferent done les 
tests conventionnels. Les etudiants moUves, c'est-a-dlre ceux pour 
qui le resultat revet une certaine importance, se disent plus 
anxieux devant un test informatise et, par consequent, Tapprecient 
moins. Par ailleurs, ceux qui sont moins motives le trouvent plus 
difficile et de ce fait seraient egalement plus criUques face au 
testing adaptatif. 

Ces obseivaUons sur I'anxiete et la moUvaUon contras- 
tent avec celles formulees par I'equipe de recherche de rUniversite 
du Minnesota qui s'est aussi interessee aux aspects psychologiques 
du tesUng adaptatif. Weiss et Betz (1976a, 1976b) ont en effet 
trouve que si Tanxiete etalt plus grande lors d'un teit 
adaptatif, la moUvaUon Tetait egalement. Les auteurs ont aussi 
constate que le fait de connaitre la bonne reponse sur le champ au 
cours d'une seance de test adaptatif, avait des effets positifs. 
Prestwood (1978) a nuance ce jugement en affirmant que la 
retroacUon instantanee n'influait par sur le resultat comme tel 
mais qu'eUe etalt neanmoins fort appreciee des etudiants. Pine 
(1978) et Pine etaL (1979) ont quant a eux corrobore non seulement 
raugmentatlon du degre d'anxiete et de motivation avec le testing 
adaptaUf mais aussi Teffet generalement positlf de la retro- 
acUon instantanee. lis insistent toutefois sur le fait que la 
retroacUon instantanee a des effets negatifs chez les etudiants de 
race noire. En effet, ces demiers semblent mieux reussir aux 
tests adaptatlfs qu'aux tests conventionnels sauf quand on leur 
presente la bonne reponse immediatement. Par ailleurs, le fait 
que le testing adaptatif favorise les Noirs va dans le sens des 

o * r 
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observaUons dc Johnson et Mihal (1973) pour qui nnforma- 
tlsatlon d'un test se traduisait par une amelioration des resultats 
Chez les minorltes noires. 

6.2.2 Analyse quantitative 

6.2.2.1 Le questionnaire 

II est assez courant d'utiliser un questionnaire afin de 
verifier I'effet psychologique d'un type d'enseignement ou d un test. 
Rushinek et oL (1985) ont utilise un questionnaire pour connaitre la 
reaction des apprenants a la suite d'un cours de formation infor- 
matise. Watts (1989) a eu recours au meme type de questionnaire 
pour evaluer Timpact d'un programme avec vldeodisque. Madsen 
(1982) mesure Tanxiete generee par divers types de tests de langue 
et souligne que ces donnees sont indispensables car cette variable 
n'affecte pas tous les apprenants dc la meme fagon, Plusieurs 
questionnaires vlsant a mesurer Tattitude des etudiants face a 
Tentrevue d'evaluation de Toral ont ete mis au point et administres 
(Shohamy 1982, Scott 1986. Zeidner et Bensoussan 1988), Notons 
que ces demiers questionnaires sont construits a partlr d'echelles 
Llkert: lis sont congus avec Tintention de soumettre les reponses a 
une analyse factorielle en vue de reduire les donnees a un nombre 
minimal de facteurs. lis vlsent done a porter un Jugement global sur 
Tattitude des apprenants relativement a un mode d'evaluation 
particulier. 

Notre approche est quelque peu different^ car nous 
avons plutot cherche a confirmcr un certain nombre d'hypotheses 
quant a la reaction des etudiants vls-a-vis les versions tpapier- 
crayon* et infomiatisees de notre test, Alnsi comme chaque 
question est destinee a etre analysee indivlduellement, le ques- 
tionnaire se presente plutot comme un sondage. Chaque question 
portant sur un aspect particulier. le questionnaire ne presente 
pas de redondances. On trouve le plus souvent trois cases 
(c'est-a-dire trois possibilites de reponse) mais certaines ques- 
tions en component quatre ou cinq car il nous semblait plus 
important de foumir au repondant une gamme d'options signifl- 
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cattves que de conserver la meme echelle tout au long du 
quesUonnalre. Blen que ne se prctant pas a une analyse sta- 
tistique tres fine, ce questionnaire nous semblait approprie 
pour mettre le dolgt sur des contrastes dominants entre les deux 
types de tests. 

Nous avons admlnlstre le questionnaire aux groupes avec 
lesquels nous avons procede a la mise a Tessai du logiciel, au 
printemps 1988, a Saint-Georges (Unlversite York). Rappelons 
qu'un groupe avait fait le test convenUonnel comme pre- test (version 
3.1) et que Tautre avait fait le test informaUse. Au post-test, six 
semaines plus tard on a inverse les tests. On demandait aux 
etudiants de remplir le questionnaire des qu'ils avaicxit 
complete le test. Le tableau 6.7 resume la distrlbuUon des 
questionnaires rccueillis. 



TABLEAU 6.7 
Repartition dc» questionnaire* 



Version 


Pr*-test 


Post-test 


Total 


Conventlonnelle 


40 


50 


90 


In£ormatis4e 


48 


38 


86 


Total 


88 


88 


176 



6.2.2.2 Les resultats 

6.2.2.2.1 Les variables demographiques 

Nous esperions faire des recoupements avec les carac- 
terlstiques que nous pensions pouvoir expliquer certaines differences 
dans les perceptions, les attitudes ou les comportements face au 
test: rage, le domaine d'etudes. la familiarlte avec les ordinateurs et 
la langue matemcUe. 

Apres s'etre Identlfie. Tetudiant devait indiquer sa date de 
naissance. II apparait que les deux groupes etaient sensiblement du 
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meme age. la moyenne s'etablisssant a 23. 14 ans pour les 88 sujets 
qui avaient fait la version 3. 1 et a 23. 16 ans pour ceux qui avait fait 
le test STRAT. La figure 6. 10 montre la repartition selon les tranches 
d'age que nous avons par la suite etablies. 



FIGURE 6.10 
Ripartit^ n scion I'ige 




La figure 6.11 montre la repartition de rechantlllon en 
fonction des domalnes d'etude. Nous avons regroupe les programmes 
et specialites en sept domalnes distlncts. L'etude des langues fait 
nomialement partle des «Humanites» mais nous avons distingue les 
etudismts qui ont declare se specialiser en fran^ais puisque que de 
par son grand nombre et ses interets particuliers. ce groupe cons- 
tltue une categoric en sol. Les deux echantillons restent tout a fait 
comparables. 
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nCURE 6,11 
Repartition scion le domalne d*etude 




17 18 10 9 6 5 5 6 5 4 30 29 5 7 

I ! I I I I I 

Sciences 1 Administration I Arts I Education 

soclales I I i 

Humanities Sciences-maths Fran^ais 



Version I J Version 

conventionnelle It—" informatis*e 




Pour verifier le degre de famillarlte avec Tordinateur, on 
demandait aux etudiants a quelle frequence, lis utilisaient un 
ordinateur. En examinant rhistogramme de la figure 6-12, on 
s'e tonne de constater que la majorlte d*entre eux ont declare 
n utillser un ordinateur que de temps a autre. Quelques etudiants 
(2 avec la version conventionnelle et 4 avec la version informatlsee) 
ont avoue toucher a un ordinateur pour la premiere fois. 



Par allleurs, contrairement a ce qu'on pourrait penser 
en comparant ces reponses avec la variable «age», on volt que 
les plus ages ne sont pas necessairement ceux qui ont moins 
d'experience avec les ordinateurs. Par contre, en ce qui 
conceme le domaine d*etudes, les quelques etudiants inscrlts 
dans des programmes de sciences-maths se demarquent clalrement 
des autres car plus de 90% d'entre eux disent utiliser un 
ordinateur «souvent» ou «plus de trois heures par semaine*. Par 
aiUeurs, on ne note pas de difference appreciable entre les deux 
groupes de Texperience. 



P 0 

/w ^ W 
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RGURE 6.12 
Repartition scion U familiarite 
aTec lea ordinateura 




23 26 49 43 2 4 
I I I I 

plus de t quelques I 
3 h/aen. I £ols I 

souvent jamais 



Version 
convent ionne 



Version 
inforutisAe 



Enfin du point de vue de la langue matemelle, la dominance 
de Tanglais ressort nettcment (figure 6.13). De ce point de vue 
Techantillon est tres hornogene d'autant plus que les sujets qui 
declarent une autre langue que i'anglais comme langue matemelle 
ont tous une bonne connaissance de Tanglais. Le programme de 
bourses s*adresse en effet a des etudiants non francophones, ayant 
le statut de cltoyen canadien ou d'lmmlgrant recu et Inscrlts dans 
des etablisseiiients dispensant des cours en anglais. Cette variable 
n'est done pas susceptible d'intervenlr dans la comprehension de la 
consigne. 
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FIGURE 6.13 
Repartition selon U langue matemelle 
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6.2.2.2.2 Les reactions au test 

Les huit autres questions vlsaJent a determiner les reacUons 
des etudla.nts face au test qu'lls venaJent de faire. 
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— guestlon #6: Comment evaluez-vous he degre de dif- 
Jicidte du test/ Tr^s facile, facile. Juste, 
difficile ou tr&s difficile? 

Comme le test adaptatlf tlent compte du niveau d'habilete de 
Tetudiant, on doit s'attendre a ce que les etudiants ne le trouvent ni 
difficile, ni facile. Par contre, les etudiants avances devralent trouver 
le test conventionnel trop facile alors que les debutants devralent le 
trouver trop difficile. 

Si on assigne une valeur numerlque aux cinq choix de 
reponse proposes (de 1, pour «Tres facile* a 5, pour «Tres difficile*), 
les moyennes ne devralent pas etre sensiblement differentes mais la 
variance devrait changer d'une version a Tautre. De fait, la moyenne 
des 88 sujets qui ont repondu au questionnaire apres le test 
informatlse est de 2.89 et celle des 88 sujets qui ont repondu apres 
le test conventionnel de 3.01. En appliquant le test t de SPSS-PC. on 
volt que recart n'est pas signlficatff (p <.294). En examinant la 
distribution des reponses du tableau 6.8, on voit que Tecart tlent au 
fait que moins de sujets ont trouve la version informatisee difficile ou 
tres difficile; toutefois, comme le montre le test du chi carre ces dif- 
ferences sent peu Importantes. 



TABLEAU 6.8 
Perception de U difficulte (#6) 





Tr*8 




Just* 


Dl££lclle 


Tr*8 


Total 




£«cile 








difficile 




3 . 1 


3 


17 


47 




18 


3 


68 


STRAT 


3 


20 


50 




14 


1 


66 


Total 


6 


37 


97 




32 


4 


176 






1,636 


di - 


4 


P ■ 


,766 





Aucun des recoupements que nous avons pu falre avec les 
variables socio-demographiques ne permet de dire qu'un groupe 
particulier auralt pu trouver une version plus ou moins difficile. Tout 
au plus peut-on dire que la trentaine de sujets qui sc specialisent en 
frangals ont trouve les tests plutot facilas (moyenne pour les deux 



210 



® 



tests de 2.58); cette observation n'a rien de surprenant quand on 
salt que les specialistes se retrouvent generalement panni les 
groupes les plus avsnces. Ce qui est surprenant c'est que cette 
tendance est plus marquee pour le test adaptatif (moyenne de 1.22) 
alors qu-on aurait pu s'attendre au contraire! Par allleurs. comme le 
pre-test precede TapprenUssage. il est normal que les etudiants 
Jugent la version convenUonnelle de ce pre-test plus difficile: 
moyenne de 3.21 au pre-test et de 2.83 au post-test. Cependant. on 
s'etonne d'observer un phenomene semblable avec les tests adap- 
tatlfs dont la moyenne passe de 2.94 a 2.83. 11 faut souligner 
neanmoins que I'ecart est beaucoup moins marque de sorte qu'on 
peut rattribuer au hasard. 11 reste qu'unc conclusion s'impose: bien 
que la procedure du test adaptatif consiste a presenter des items qui 
sont d'un niveau correspondant a celui du sujet. celui-ci n'a pas 
necessalrement I'impression de faire un test sur mesure. 



- Question #7: Si ce test devait etre utilise pour vous 
classer dans un groupe correspondant a. 
voire niveau dejrangais. selon vous, ou 
auriez-vous ete cUisse? Au-dessus de 
voire r^iveau, au-dessous de voire niveau 
ou au niveau approprie? 
Le fait que les sujets sclent peu conscients de ce que 
certains items trop difllciles ou trop faciles de la version 
.papier-crayon, mesurent mal leur niveau se reflete dans les 
reponses de la quesUon #7 (tableau 6.9). En effet. tant pour la 
version conventionnelle que pour la version infoirnatisee. 67 
sujets. soit la grande majorlte. considerent que le test devralt 
les classer dans le groupe qui leur convlent. Parmi les quelques-uns 
qui pensent le contraire. un plus grand nombre estiment etre sur- 
evalues par le test .papier-crayon, alors qu'un plus grand 
nombre estiment etre sous-evalues par le test adaptatif. Bien 
que peu signlficaUve. cette tendance peut s'expliquer par le fait 
que. comme nous I'avons observe lors des simulations, les 
versions conventionnelles tendent effecUvement a sur-evaluer les 
etudiants. 



o 
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TABLEAU 6.9 
NItmu de clAssement (#7) 





Au 
dessus 


Bn 
dessous 


Au bon 
niveau 


Total 


3.1 


13 


a 


67 


aa 


STRAT 


9 


11 


67 


a7 


Total 


22 


19 


134 


175 




» 1.195 


dl - 2 


p « .55 



En falsant des recoupements avec les variables socio- 
demographiques, on note que paraii les 14 sujets dont Tanglais n'est 
pas la langue matemelle, aucun n'estime avoir ete sous-evalue par 
le test et ce, quelle que soit la version administree. On s'apergoit 
aussi que ceux qui ne se specialisent pas en frangals ont plus 
souvent rimpression que la version conventlonnelle les a classes au- 
dessus de leur niveau. En effet, des 58 non-speciallstes, 16 se con- 
sldereralent mal classes; de ces 16, 11 se considereraient classes a 
un niveau trop avance. Cependant, 11 semble blen que, dans 
Tensembk, les ecarts sont mlnlmes. Alnsl, le fait que les items soient 
cholsis en fonctlon du niveau du sujet ne contrlbuc pas a modifier 
la perception de ces sujets quant a Texactltude de la decision relative 
a leur classement. 



— Question #8: Commerd ce type de test meswe't-il voire 
niveau general en frangais? Avec preci- 
sion, assez bien ou mal? 

Compte tenu des resultats de la question precedente, on 
devralt s'attendre a ce que bon nombre de sujets accordent une cote 
elevee au test du point de vue de sa precision, que ce soit avec la 
version conventlonnelle ou avec la version Informatlsee. Toutefols, 
en regardant la distribution des reponses du tableau 6. 10, on peut 
s'etonner de ce que peu de sujets aient coche la case «Avec preci- 
sion*. En assignant une valeur numerique a chaque cholx, on trouve 
que Tensemble des etudiants juge le test «Assez blen* sans dlstlnguer 
de quelle version il s'agit: 2.08 pour la version conventlonnelle et 
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1.99 pour la version Infomiatisee. Par contxe. on volt que la version 
3, 1 est consideree conune mesurant mal deux fois plus souvent que 
la version par stratlflcaUon. II nous scmble que cet ccart s'explique 
non pas par la difference de flabilite cntre les versions mals plut6t 
par le fait qu'avec la version informaUsce. les sujetsjugent de la 
precision du test par le rcsultat que le programme leur a commu- 
nique tandis qu'ii Jugent de la precision de la version convenUonnelle 
a partlr du nombre de questions qu'ils croient avoir reussies. 



TABLEAU 6.10 
Precision du test (#8) 





Avec 
precision 


Assez 
bien 


Hal 


Total 


3.1 


5 


70 


12 


87 


STRAT 


7 


73 


6 


86 


Total 


12 


143 


18 


173 




- 2.391 


da « 2 


p « .303 



II semble que la difference se sltue chez les plusjeunes (les 
34 sujets ages de molns de 21 ans). En effet. ceux-ci sont beaucoup 
plus criUques a regard de la version -papier-crayont puisque que un 
sur cinq (7/34) Juge qu'elle mesure mal. 

— Question #9: Que pensez-vous de la duree du test? 

Trop long, trop court ou bien? 

On salt que la procedure adaptative utilise deux fois moins 
d'items. U est cependant interessant de savoir si le test parait trop 
long ou parait trop court pour les etudiants. En observant les 
resultats du tableau 6. 1 1. on est frappe par le fait que. malgre une 
difference appreciable entre la duree objective des deux types de 
tests, la grande majorite des etudiants ne les Jugent ni trop longs ni 
trop courts. On peut penser que bien que peu sensibles au fait que 
la procedure adaptative choisisse les items en fonctlon de leur 
niveau, les etudiants reconnaissent qu'on ne peut evaluer la duree 
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du deux types de tests avec les memes criteres. On observe nean- 
moins qu'unc dizaine dc sujetsjugent le test informatise trop court 
et qu'un nombre egal jugc le test conventlonnel trop long. Nous 
avons aussi remarque que les etudlants semblalent plus Indiflferents 
a la duree lors du pre-test car ces divergences apparaissent surtout 
au post-test. 



TABLEAU6.il 
Longueur du test (#9) 





Trop 
lofi9 


Trop 
court 


Bien 


Total 


3.1 


10 


5 


72 


87 


STRAT 


2 


10 


75 


67 


Total 


12 


15 


147 


174 




• 7.061 


dl » 2 


p » .029 



La seule Information qu'on puisse retirer des recoupements 
avec les variables socio-demographlques est reliee a la famillarlte 
avec la machine. Bien que le nombre de sujets ne permette pas de 
conclusion definitive, il semblerait que plus Tetudiant utilise souvent 
un ordinateur, plus il estime que Ic test «papier-crayon» est trop 
long: 0 sur 2 (0%) chez ceux qui n'avaient Jamais touche a un 
ordlnateur, 5 sur 49 (10.2%) chez ceux qui en avaient utilise un 
quelques fois, 3 sur 22 (13.6%) chez ceux qui en utilisent un 
souvent, 2 sur 12 (16.7%) chez ceux qui en utilisent un plus de trois 
heures par semaine. 



— guestion # 10: Dans un test Vetudiant doit savoir ce 
qu'il doitfaire. Les directives etaient-elles 
Claires? TV^s daires, generalementclaires 
ou ambigues? 

Dans les versions conventlonnelles, chaquc partie du test est 
precedee d'un excmple et on peut compter sur le fait que le test ecrlt 
a choix multiple est un tjrpe de test avec lequel les etudiants sent 
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familiers. De fait, lors de rexperlmentatlon nous n'avons jamais eu 
a repondre a des questions ou a foumlr des explications supple- 
mentalres concemant la conslgne du test «papler-crayon», Avec la 
version informatlsec. U nous a fallu prevoir dans la programmatlon. 
des explications sur la fagon de repondre et sur le fonctionnment 
general du programme. On pouvalt penser que cet apprentissage en 
vue de se famillarlser avec TappareU ct Ic logiciel aurait pu etre pour 
le sujet. une source d'ambiguite dans la consignc. Le tableau 6.12 
demontre qu'ii n'en est rlen et qu'au contralre. il semblerait que les 
directives de la version informatlsee soient plus clalres. De fait, en 
assignant une valeur numerique aux categories proposees (1 pour 
•Tres Claires* et 3 pour «Ambigues»). on trouve une moyenne de 1 .33 
pour la version conventionnelle et de 1.22 pour la version informa- 
tlsee. Toutefois. le test t indique que la difference ne saurait etre 
slgnlficaUve (p =.263). 



TABLEAU 6.12 
Clarte de la conslgne (#10) 





TrAs GAnAralement 
clalres clalres Amblques 


Total 


3.1 


72 


3 


13 




ee 


STRAT 


78 


1 


9 




88 


Total 


150 


4 


22 




176 




- 1.967 


dl » 2 


P - - 


374 



En faisant des rccoupements avec Tage. on observe que les 
sujets les plus ages (plus de 25 ans) trouvent les directives de ia 
version 3.1 plus claires que cellcs foumies par la machine: plus de 
93% pensent que les directives de la version conventionnelle sont 
tres claires et 80% seulement pensent que les directives de la version 
informatlsee sont tres clalres. Chez les plus Jeunes (25 ans et moins) 
les pourcentages sont inverses: 80% disent que les directives de la 
version conventionnelle sont tres claires alors que le taux depassc 
90% en ce qui a trait aux directives donnees par la machine. II 
convient egalement de signaler que chez les sujets dont Tanglais 

n . 
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n'est pas la langue matemelle. 93% estlment que la machine 
foumit des directives tres clalres ct aucun nc qualifle ces 
directives d'ambigues. Par consequent, meme si on leur 
explique une consigne relativement compliquee. dans leur langue 
seconde. ces sujets ne sont pas defavorises lorsqu'on leur 
soumet le test informatise. 

— Question #11: Vous sentiez vous d Vaise dans Venviron- 
nement du test (classe, feuille de repon- 
ses, swveiUant.. vs saUe d'informatique, 
clavier, €craTh..)?Tresdetendm detendm 
teudu ou trds tenda? 

II est raisonnable de penser qu'en situation de test 
Tetudiant sera tendu et qu'll le sera d'autar* plus que cette 
situation presentc des elements inconnus ou inattendus. On 
s'attendrait done a ce que les etudiants qui font la version 
adaptative montrent un niveau de stress elevc. Or. il n'en est 
rien. D'une part, personne ne se declare «Tres tendu*. pcu 
importe le test. II est certain qu'un test de classement generc 
moins d'anxlete que d'autres types de tests d'autant plus que 
dans la situation de Texpertmentatlon. ce test ne rtsqualt pas 
d'avoir des effets importants sur les notes des etudiants. 
D'autre part, en faisant les moyennes des valeurs numerlques 
attribuees a chaque categorie (ou 1 corresjwnd a «Tres 
detendu* et 4 a «Tres tendu». on constate que la moyenne du 
test conventlonnel (1.68) est superieure a celle du test infor- 
maUse (1.59), De fait, si la difference n'est pas significaUvc, 
c'est en partie parce le nombre des sujets est limite et que 
la variance des reponses pour la version informatlsee est plus 
grande. Le tableau 6.13 montre d'allleurs une certalne polari- 
sation des positions des reactions face a la version STRAT. Si 
on en juge d'apres la valeur du chi-carre, cette polarisation 
risque peu d'etre le simple fruit du hasard. On volt done que 
non seulement la situation du test adaptatif ne cause pas plus 
d'anxlete. mals que dans certalnes circonstances. elle pourrait 
meme la reduirc. 
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TABLEAU 6.13 
Niveau d'uizieti(« 11) 





d^tendu 


DAtendu 


Tendu 


Tr«s 

tendu 


Total 


3.1 


31 


54 


3 


0 


88 


STRAT 


42 


40 


6 


0 


88 


Total 


73 


94 


9 


0 


17C^ 


X* « 4.743 


dl 


« 2 


p « .093 





En prenant en consideration les variables socio-demographi- 
ques, on constate que 50% des sujets qui se speclallsent en fran^als 
afflrment etre tres detendus au test «papier-crayon» mals qu'un peu 
molrs de 45% afflnment etre tres detendus au test adaptatif. Par 
conire. seulement 28% des non specialistes se croient tres detendus 
avec la version «papier-crayon» et pres de 50% avec la version 
adaptative. En d'autres tenmes. rutilisation d'une version informa- 
tisee avec les non-speciallstes pennettralt d'attcindre le niveau 
minimal d'anxlete que les specialistes, plus habitues aux epreuves 
traditionnelles en francs, attelgnent avec la version «papier- 
crayon*. Par aiUeurs, la repartition des reponses en tenant compte 
a la fois du stress et de Tcxperlence avec Tordlnateur ne permet pas 
de conclure, comme on pourralt le croire, que les usagers reguliers 
des ordinateurs sclent t)1us detendus avec le test informatise. Enfin. 
11 est faux de croire que les sujets les plus ages puJssent etre plus 
anxieux avec le test informatise. Les resultats conflrmeralent plutot 
la tendance inverse. En cfTet. plus de la moitie des sujets ages de 
plus de 25 ans se disent tres detendus au test informatise alors que 
seulement le tiers se disent aussi detendus au test conventlonnel: 
quant au 20 ans et moins. si la meme proportion se disent tres 
detendus au test conventlonnel. 42%. soit 12% de moins que les 
alnes. afflmient etre tres detendus au test informatise. 



— Question # 12: Vous ^tait-il difficile de vous concentrer 
pejidant le test? Tr^s difficae. difficile. 
JacUe ou tr^s facile? 
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11 nous scmblalt Important de questlonner les etudiants sur 
cet aspect puisque Fenvlronncment peut avoir des cffets importants 
sur la capacite de concentration et consequemment sur les resultats 
au test. Le tableau 6.14 montre pourtant que le degre de concen- 
tration ne varie pas du tout d une version a Fautre. Dans Tensemble, 
les sujets n'eprouvent pas de problemes de concentration. D'autre 
part, la cause des problemes de ceux qui en eprouvent ne reside 
surement pas dans le mode d'admlnistration. 



TABLEAU 6.14 
Capacity de concentration (#12) 





Tr*8 Difficile 
difficile 


Facile 


Tr*8 

facile 


Total 


3.1 


1 


17 


54 


16 


88 


STRAT 


1 


19 


52 


16 


88 


Total 


2 


36 


106 


32 


176 


X« « 0.149 


dl 


- 3 


p - .985 





L'examen des Interactions avec les autres variables n*est 
guere plus revelateur: aucun sous-groupe ne semble avoir connu de 
probleme de concentration particulier. 

— 9^^^^^^ 13: Que faisiez vous le plus souvent quand 
vous ignoriez la bonne reponse? Deviner 
en choisissant a, c ou d an hasard, 
deviner en repetxmt toujoiirs la m^me 
reponse on omettre la reponse? 

U est pemils dc croirc que le fait d'utlliser un medium 
different peut afl'ectcr les strategies dc reponse dans les cas ou 
Tetudiant ne connait pas la reponse. Par exemplc, 11 semble plus 
facile d*omettre une reponse avec une feuille de reponses puisque 
Fetudiant n*a aucun geste a poser alors qu*avec le clavier 11 dolt 
appuyer sur la barre d'cspacement: dc pli *^, dans la consigne mcme 
du test adaptaUf, on Invltait le sujet a ulJlser cette touche le molns 
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possible. Par ailleurs, ll peut sembler plus facile de repeter la 
reponse precedente avec Tordinateur pulsqu'il suffit de toujours 
appuyer la meme touche. II faut pourtant reconnaitre que ces 
hypotheses ne se verifient pas du tout avec les donnees que nous 
reproduisons dans le tableau 6.15. 



TABLEAU 6.15 
Strategies de rcponses (#13) 





Au 
hasard 


MSne OBilssion 
r^^ponse 


Total 


3.1 


63 


2 


5 


70 


STRAT 


60 


2 


7 


69 


Total 


123 


4 


12 


139 


X« 


« 0.399 


dl - 2 


p « .819 



Tant pour la version Informatisee que pour la version 
conventionnelle, repondre au hasard est nettement la strategic la 
plus p jpulaire quand Tetudiant ignore la reponse. La popularlte de 
ces selections purement aleatoires interdit d'ailleurs tout recou- 
pement avec les autres variables car, peu importe le sous-groupe 
retenu, Templol des deux autres strategies reste exceptloimel. 
II faut aussi noter que plusieurs sujets, n'ont pas repondu a 
cette demiere question, ayant peut-etre Timpression de ne Jamais 
avoir du faire face a la situation ou ayant recours a une 
strategic personnelle, differente de celles parmi lesquelles on 
leur demandalt de choisir. 



— Commcntaircs: Dans plusieurs cas, la section ou Ton 
soUicltalent des commentalres a permls aux repondants de preciser 
leurs reponses a la demiere question a propos des strategies quells 
utllisaient quand 11 ne connaissaient pas la bonne reponse. Alnsl, 
beaucoup d'etudiants se defendalent de «deviner» precisant qu'ils 
procedaient en evaluant la vralsemblance de chaque distracteur 
(inference et elimination). 
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Le tableau 6.16 resume les commentaires des etudiants. 
Nous avons ellmine de ce soirmaire les opinions qui n'etaient 
exprimees qu'une fois. De plus, comme la majorlte des etudiants 
n'ajoutalent pas de commentaire, 11 est difficile de titer des con- 
clusions Claires surtout pour comparer les deux versions. Les 
commentaires relatlfs au contenu s'appUquent a Tune ou Tautre des 
versions. II est certain toutefois que la lacune que soullgnent 
beaucoup d'etudiants quant a Tabsence de la langue parlee est reelle 
et tlent en grande partie aux limites qu 'impose le test informatise 
dans Telaboration de versions comparables. II est interessant de 
noter que du point de vue de la perception du test, les deux versions 
sont Jugees favorablement. Du point de vue de ia formule, des sujets 
ont deplore le fait de ne pas pouvolr corrlger ou reviser leurs 
reponses avec la version informatisee. Enfin les problemes techni- 
ques dont deux etudiants font etat (emballement du programme et 
panne d un apparell) sont typlques de ce qui peut survenlr pendant 
radministratlon d'un test informatise. 



TABLEAU 6.16 
Sommairc des commenUdrcs au questionnaire 



Descr lotion 


PrAauence 




3.1 


STRAT 


CONTBNU 






XI nanque une p«rtie d'expresBlon or«le. 


3 


6 


11 nanque une partie d**coute. 


2 


1 


On lvalue aeulement la competence A l**crlt. 


2 


3 


Jl n*y a pas aaaez de grammaire. 


3 




Le vocabulalre eat trop complexe. 


1 


3 


Aspects extra-llngulstlques au aoua-teAt 12. 




2 


Le test couvre tcua les aapecta. 


1 


I 


PERCEPTION 






11 est difficile de juger d*un test. 




3 


Le test eat Int^reauant. 


1 


1 


Le test est :)uste et prAcis. 


3 


b 


FORMAT 






L'e££et du haaard eat trop inportant. 


3 




On ne peut pas corrlqer une rAponsc. 




2 


On ne peut pas reviser . 




2 


STRATEGIES 






Inference ("Educated ^ueas*). 


6 


7 


EllBlnatlon des rAponsea peu plau£lblea. 


2 


3 


Relecture . 




2 


ENVIRONNEMBNT 






Fatigue au «ofl»ent de 1 'administration. 


1 


3 


ProblAMs technlquea . 




2 
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6.2.2.2.3 Conclusions de Tanalyse 

II convlent de rappeler que nous ne cherchlons pas a detecter 
avec ce questionnaire, des dilTerences marginales dans les reactions 
des etudiants. Nous vouHons plutot verifier s'll y avalt des raisons 
d'ordre psychologique evldentes qui empechaient toute tentaUve de 
comparer les resultats obtenus avec une version «papler-crayon» et 
une version adaptatlve. Or. 11 semble bien que si les modes d'ad- 
mlnistration sent dlfferents, U n'y alt pas de differences majeures 
dans les reactions des etudiants. Par exemple, nous n'avons pas pu 
confiraier que la version inforaiaUsee pouvait generer plus d'anxiete, 
qu'elle etait Jugee plus positlvement ou qu'elle favorlsalt le deve- 
lopment de strategies de reponses particulieres. 

Deux aspects qui pourralent falre Tobjet d'une etude plus 
poussee ressortent pourtant. Premlerement, 11 semble que les 
etudiants qui ne se specialisent pas en frangals sclent plus detendus 
avec la version adaptaUve que les specialistes, Cette tendance 
merlteralt d'etre etudiee de fagon plus approfondie car elle pourrait 
impllquer que le passage a un test adaptatlf meneralt vers une 
evaluation moins bialsee. En effet, les etudiants specialistes, de par 
leur apprentlssage formel de la langue, ont Thabitude des tests de 
langue ecrlts tradiUonnels et peuvent ainsi etre favorlses par une 
version «papi^r-crayon». 

Deuxiemement. nous avons releve que les etudiants sont peu 
sensibles au fait que la version adaptatlve selectlonne les items en 
fonction de leur habUete. On peut penser que le niveau ou chaque 
item apporte le maximum dUnformatlon ne correspond pas neces- 
sairement au niveau ou cet item est Juge le plus approprle. En 
d'autres teraies, la dilflculte relative, telle que pergue par les 
etudiants. ne coincide pas avec la dilflculte (presentee a la section 
2.2. 1) telle que mesuree lors de la calibration. 

6.2.3 Analyse qualitative 

6.2.3. 1 Uapproche qualitative 

Selon Faerch et Kasper (1987), on peut voir les productions 
des apprenants en langue seconde. comme une succession a 
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plusieurs nlveaux d'une serie de «produits». Dans cette perspective, 
on peut pretendre que les donnees recueillies a Taide d'un ques- 
tionnaire commc celui que nous avons utilise nc peuvent pas 
vralment rendre comptc dc la profondeur des processus Impliques 
lorsqu'un etudiant repond a une question. Cohen (1987) soullgne 
que les rapports vcrbaux peuvent foumir des indications precieuses. 
slnon sur les processus relies aux strategies d'acquisition, du moins 
sur les processus relies aux strategies d'apprentissage, par nature 
plus conscientes que les strategies d'acquisition. Ericsson et Simon 
(1987). deux psychologues pionnlers de ces techniques d'observa- 
tion. distinguent les techniques introspectlves des techniques 
retrospectives. En introspection, le sujet fait des commentalres «sur 
le champ». c*est-a-dire pendant qu'il accomplit la tache (exercice de 
comprehension, test, redaction...). En retrospection. le{s) sujet(s). 
avec Taide discrete d*un animateur. essale{nt) de retracer «apres- 
coup» la demarche intellectuelle suivle. 

Cohen (1984) montre que les rapports verbaux. introspectlfs 
ou retrospectlfs. setvent a preciser ce que mesure effectivement un 
test. II rapporte plusieurs etudes ou Ton demandalt aux sujets de 
commenter leur demarche pendant qu'ils completaient un test de 
closure ou pendant qu'ils repondailent a des questions a choix 
multiple. Grotjahn (1987) et Feldman et Stemmer (1987) ont utilise 
avec succes une approche semblable pour examiner la valldlte des 
tests «C». une forme de test lacunaire apparentee au test de closure. 
Quant a nous, nous avons opte pour une technique retrospective 
relatlvement simple, la discussion de groupe. II nous semblalt que 
les rapports verbaux ainsi recueillis senriraient a completer les 
donnees du questionnaire et en corrigeralent meme les lacunes. 



6.2.3.2 Les residtats 

Deux groupes d'une dizalne d'etudlants anglophones Inscrlts 
dans un programme intensif de TUniversite du Quebec de Trols- 
Rivieres ont fait chacun Mne version du test (la version 3.1 et la 
version STRAT). Ces etud nts se retrouvaient a tous les nlveaux; 
cependant comme rexperlmentation se deroulait pendant la 
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trolsleme semaine du programme, 11 n'y avait pas de debutant 
absolu. Immediatement apres Tepreuve. on amorgait une discussion 
de groupe sur le test lui-meme. II faut noter qu'a ce moment, la 
machine avait deja Informe les sujets du test adaptatlf de leur 
niveau alors que la correcUon du test convenUonnel s'est faite apres 
la discussion. Etant donne les regies etablies par le programme, la 
discussion s'est deroulee en franQais. II est possible que cette 
decision ait pu a Toccasion brlmer les moins avances, mais nous 
nous sommes ainsl assure de I'enUere coUaboraUon de Torganisation 
du programme et des etudiants pour qui cette discussion s'integrait 
dans les actlvites du programme. 

Confomiement aux protocoles suggeres pour ce type de 
discussions, 11 s'agissait d'une entrevue non IntervenUoniste. Le role 
de ranimateur consistait essenUellement a ramener la discussion 
vers les aspects Importants sans dirlger la discussion nl meme 
chercher a couvrlr tous les aspects. Les princlpaux aspects que nous 
comptions toucher au cours de la discussion etaient les sulvants: 

difficulte de rensemble du test; 
dlfTiculte relative des Items; 
clarle de la consignc; 
strategies de reponsc; 
nervoslte; 

interet a Tegard du test; 
preference a priort 

Les deux discussions ont ete enreglstrees sur cassette, 
puis transcrite. Nous ne rapportons dans les lignes suivantes 
que les elements qui se degagent de Tanalyse que nous avons 
falte du contenu des transcriptions. 



6.2.3.2.1 Le test adaptatif 

On a demande a 10 etudiants de se rendre au laboratolre de 
mlcro-lnformatlque pour falre le test STRAT. La discussion s'est 
amorcee immediatement apres le test, au laboratolre meme. De 
fagon generale, les etudiants semblalent avoir porte beaucoup 
d'lnteret au test meme si une partlclpante le trouvalt .ImpersonneU. 
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Unanimement, les etudiants ont d'abord reconnu qu*ils 
n'avaieni: eu aucun probleme avec la consigns peu iinporte leur 
degre de f amiliarisation avec la machine. De fait, les explications que 
foumit le programme ont rassure les plus reticents de sorte que 
personne n'a dit avoir eprouve de crainte ou d*anxiete au cours du 
test. Les participants ont souligne que la nervosite qui est associee 
habituellement a un test Uent a la signification que prend le test 
pour le dossier scolaire et non au mode d*admlnistration. 

Contrairement a ce qu*on pourrait attendre d*un test 
adaptatif, les participants ont Indique que le niveau de difficulte de 
chaque item variait. Certaines questions leur paraissalent nettement 
plus faciles ou plus difficiles que d*autres. Tous s'entendalent pour 
dire que la premiere partie (sous-test de comprehension) etait la plus 
difficile a cause de la complexity du vocabulaire. Les etudiants ont 
compare le test avec le test Laval qui leur avait ete administre 
comma test de classement au debut du programme, Selon les plus 
debutants, le test Laval etait beaucoup plus dlHlcUe alors que selon 
les plus avances. le test Laixil etait plus facUe. On reconnait ici Teffet 
de la procedure adaptative du point de vue de la percepUon de la 
difficulte generale du test. Interroges quant a la proportion de 
questions auxquelles ils ;-ensaient avoir repondu correctement , les 
etudiant s'entendaient pour dire que le taux se situait autour de 
80%. Une seule personne a remarque que le test s*adaptait a son 
niv^eau; les autres ont manifesto une certaine surprise en apprenant 
qu'Us avaient tous fait des tests differents. 

Tous ont apprecie de connaitre leur resultat sltot le test 
termine. II ont tous fait remarquer que le niveau qui leur avait ete 
communique correspondait a ce qu*il croyalt etre leur niveau reel 
sauf pour ce qui est de la performance a roral. D'apres Fensemble du 
groupe. il faudrait mesurer la conversation car c'est la facilite de 
converser dans la langue seconde qui serait la princlpale source 
d'heterogeneite des groupes-classes. 

Quand on leur a demande s'ils auralent prefere faire la 
version convenUonnelle. les etudiants ont heslte. Plusieurs ont fait 
remarquer que les strategies de test qu'ils utilisalent habituellement 
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ne fonctlonnalent pas pulsqu'Us etalent dans rimposslblUte de falre 
de revisions. lis ont note que le mode de presentaUon empechalt 
I'uUUsaUon d'elements des autres quesUons comme Indices; les 
Items seraient done tout a fait Independants. Par ailleurs. aucun 
etudlant n'auralt utilise la barre d'espacement pour omettre une 
reponse. Quand lis Ignoralent la reponse. dlsalent la plupart. Us 
tentalent de reperer les deux dlstracteurs les molns plauslbles pour 
restrelndre le cholx a une simple altemaUve. 



6.2.3.2.2 Le test conventionnel 

Pendant que le groupe qui se trouvalt au laboratoire de 
mlcro-lnformatlque falsalt le test adaptatlf puis en dlscutalt. un 
deuxleme groupe de 11 ctudlants travalUalt avec la version 3.1. La 
demlere cople remise, on a entame la discussion autour du format 
du test. Tous ont admls qu'avec un test a cholx mulUple comme 
celul qu'Us venalent de faire. la tache etalt tres clalre. Cependant. on 
a remls en quesUon la precision des tests a cholx mulUple. d'autant 
plus qu'll n'y avalt pas de partle orale. On ne savalt pas si cette 
parUe orale devalt mesurer la comprehension ou I'expresslon mals 
un concensus s'est etabll quant a la necesslte d'ajouter une 
composante orale. Malgre cette reserve quant au c^ntenu. tous 
desiralent connaitre leur resultat et ont par la suite attendu que la 
correction solt completee. 

Personne n'etalt nerveux et les participants ont rappele que 
dans ce contexte U y avalt peu de raison de I'etre parce que la 
neivoslte est rellee a la signification du test. Une etudlante a 
menUonne toutefois qu'eUe aurait ete nerveuse si on lui avalt 
propose un test Informatise. La majorlte des participants ont par 
contre declare que. par curlosite. Us auralent opte pour cette 
demlere version s'Us avaient eu le cholx. 

Une seule etudlante avalt remarque la progression de la 
difficulte des items (du plus facUc au plus difTlcUe). Tous ont afllrme 
que la premiere parUe exlgealt beaucoup de lecture et qu'a cause de 
la complexlte du vocabulalre. eUe etalt nettement plus dlfllcUe. U est 
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a noter que comme pour la version informatisee, les plus debutants 
ont trouve ce test plus difficile que le test Laval tandis que les plus 
avances le trouvalent plus facile. Cette observation nous amene a 
penser que la perception de la difificulte generale du test par rapport 
au test de reference que represente le test Laval tient au contenu 
plutot qu'au mode de selection des items. Par contre, interroges sur 
la proportion des items qu'ils croyalent avoir reussls, les participants 
ont donne des reponses tres varices: trois d'entre eux estimalent leur 
taux de reussite a 50%, tandis qu'une participante pensait n'avoir 
presqu'aucune reponse correcte et qu'une autre pensait avait trouve 
presque toutes les reponses. 

En ce qui a trait aux strategies niis>es en oeuvre, la technique 
d'elimination des deux distracteurs les moins plausibles a de 
nouveau ete mentionnee. On a nuance toutefois en ajoutant qu*on 
cherchalt parfois des mots cles et des indices, y comprls des indices 
foumis par d'autres items. Par allleurs, quoique conscients de la 
possibilite de falre des revisions ou des retours, tous les partici- 
pants, a Texception d'un seul (de niveau avance), ont avoue ne pas 
avoir exploite cette possibilite. 

Enfin, les participants n'ont pas trouve le test trop 
long. II ont signale que la deuxieme partie, malgre les Juge- 
ments extra-linguistiques qu*elle impliquail. leur avait paru la 
plus interessante. 



6.2.3.2.3 Conclusions de Tanalyse 

Aux yeux de Tobservateur, les sujets paralssaient plus 
critiques envers le format a cholx mulUple avec la vei-sion conven- 
tionnelle qu'avec la version informatisee pour laquelle il imaglnaient 
peut-etre mal une autre foimule. II est clalr qu'aucun des tests ne 
suscitait de nervosite ou d'anxiete et que la version informatisee 
eveillait davantage I'interet des sujets. Par ailleurs, les commentalres 
quant au contenu ne changeaient guere. Tous etaient d'accord avec 
la necesslte d'ajouter une composante orale. Tous s'entendalent 
cgalement sur le fait que la premiere partie etait nettement plus 
dimcile. 
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Ce demler commentalre sur la dlfficulte du premier sous-test 
peut surprendrc chez ceux qui ont fait la version adaptative. En 
effet. en prlnclpe. les Items des trols sous-tests se referent a une 
echelle commune et c'est le niveau du sujet qui determine la 
dimculte des Items. On volt done que la dimculte subjective des 
Items ne correspond pas a leur dlfllculte objective (le parametre b). 
Mais comment expUquer que. d'une part, les debutants et les 
avances comparent les deux versions de la meme facon par rapport 
au test Laml mals que. d'autre part. Us font des preWslons assez 
justes quant a la proportion des Items qu'Us ont reussis? Une 
hypothese de recherche s'ouvre: la perception de la dlfficulte d'un 
test (et peut-etre de toute tache langaglere) ne dependralt pas tant 
de considerations probablllstes (les chances de reusslr) que de con- 
slderaUons touchant la nature meme de la tache. Dans cette 
perepecUve. concevolr TadaptabUlte d'un test a partir uniquement 
des parametrcs de chaque Item ne sufflt plus pour en arrlver a un 
test «sur mesure». 

Enfin. 11 est interessant de noter qu on reproche au test 
informatise d'empecher les retours et les revisions puisqu'une fols 
qu-on a appuye sur une touche. Vitem est iirecuperable. Meme si 
beaucoup d'etudiants disent ne pas avoir fait de retours ou de 
revisions de fagon systematlque. lis slgnalent que la recherche 
d-lndlces a travers tout le test fait partle des strategies dont lis 
dlsposent. Alnsl. blen qu'on puisse pretendre satlsfalre Texlgence 
d-mdependance des items avec la version informatlsce. on ne saurait 
en dire autant de la version conventlonnelle. Cela devlent proble- 
matlque quand on salt que la calibration s'est effectuee a partir d'un 
test .papier-crayon.. Eniln. en commentant leurs strategies de 
reponse. les sujets sont unanimes pour dire qu'U n'ont Jamais 
repondu tout a fait au hasard mals qu'lls preferent proceder par 
inference (educated guess). Que represente done reellement le 
parametre c dans une analyse selon un modele a trois parametres 
si personne ne devine vraiment? Quel sont les consequences de 
l-emploi d-un tel parametre si le hasard ne Joue absolument pas? 
Volla des considerations qui remettent en question rappUcabillte de 
la theorle du trait latent dans I'elaboratlon d'un test adaptatif en 
langue seconde. 
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Une approche qualitative parait particuUerement appropriee 
pour examiner la question de la difficulte subjective et Temploi des 
strategies d'lnferencc. On pourralt ainsi, dans une etude ulterieure, 
recourir a une methode introspective: pendant que les sujets feralent 
le test, on leur demanderalt de commenter leur demarche intel- 
lectuelle a haute voix. 



6.3 Le plan administratlf 

Nous n'avons pas fait d'experimentaUon avec comme objectif 
specifique de comparer les deux versions du point de vue adminis- 
tratlf. Toutefois, les experimentations que nous avons faltes dans le 
milieu, dans un premier temps pour mettre au point les instruments 
et dans un deuxieme temps pour en falre une etude comparaUve. 
nous ont amene a prendre contact avec les milieux ou ces tests 
pourraient etre utilises. De ce point de vue, par experience plutot 
que par experimentation, nous avons amasse un ensemble de 
donnees nous permettant de tlrer certalnes conclusions quant aux 
conditions d'utllisatlon eventuelles des instruments que nous avons 
mis au point. Ces considerations pratiques nous semblent primor- 
diales et bien qu'elles n'aient pas fait Tobjet central de notre 
recherche, nous ne devons pas les Ignorer. 



6.3. 1 . Le deroulement de Vexperimentation 

La phase initiale de notre projet consistalt a mettre sur pied 
les in?" ruments de mesure que nous avlons Tintentlon de comparer. 
A ce moment, la theorie du trait latent nous semblait etre le cadre 
psychometrique le plus approprie. De plus, nous en sommes venu 
rapidement a penser que seul le modele a trois parametres conve- 
nalt. L'adoption d'un tel modele pose, du moins dans le contexte de 
reducaUon post-secondalre au Canada, des problemes pratiques 
serleux car il est extremement difficile de Lrouver les echantillons 
requls pour la calibration des items. Reunir un millier de sujets 
presentant des caracteristiques communes, est un objectif difflci- 
lement realisable de sorte que nous avons du nous contenter d'un 
echantlllon plus modeste d'environ 750 sujets. Quant a Taddition 
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eventuelle de nouveaux Items, si eUe est emlnemment souhaltable. 
eUe suppose la mise en place d'un schema d'ancrage qui requlert la 
coUaboraUon d'un si grand nombre de sujets qu'll faudra s'accom- 
moder d'un echeancler tres long. Chercher a accelerer le processus 
risque de poser des problemes ethlques importants du fait qu'on dolt 
soumettre la populaUon etudlante a un exercice dont elle proflte peu. 

II nous semble que la version 2 ne pouvalt pas etre plus 
longue. II est Impensable qu'un meme etudiant reponde a plus de 
150 items. La duree des versions 3.1 et 3.2 nous semble mieux 
correspondre a ce qu'on peut ralsonnablement attendre d'un test de 
classement. Les etudlants mettent generalement moins d'une heure 
pour falre I'epreuve. Neanmoins. afin de ne pas imposer une 
contrainte de temps qui risque de fausser les resultats. il est sage de 
prevoir une perlode d'une heure et demie pour radminlstraUon des 
versions 3. 1 ou 3.2. La version adaptative presente. de ce point de 
vue. un avantage considerable. Lors de notre experlmentaUon a 
Saint-Georges nous avlons prevu des changements de groupe a 
toutes les demi-heures. Get horalre s'est avere assez realiste bien 
qu'il eut ete souhaltable de reserver au moins un poste de travail 
pour les etudlants plus lents. Toutefois. dans I'ensemble. on peut 
dire que la version InforaiaUsee demande deux fois moins de temps. 

La surveillance des tests tpapier-crayon. est on ne peut plus 
simple. II sufflt de distrlbuer le materiel du test et de s'assurer de 
tout recuperer a la fin. Hormis une rectification pour une erreur 
dans le premier exemple. le surveillant n'ajamals eu a intervenlr. II 
faut par la suite prevoir du temps pour la correction. Nous avons 
prepare des acetates qui permettent de corrlger rapidement les 
copies. Gependant nous avons pu constater que ce mode de 
correction n'est pas infaiUible. Avec certains groupes. nous avons 
trouvejusqu'a 10% des scores calcules par cette correction manuelle 
qui etalent errones et qu'on a du recorrlger pour le traltement des 
donnees. A cet egard. la version Informatlsee est nettement supe- 
rleure parce la correcUon est Immediate, economique et sans erreur. 
Par contre. rous nous sommes rendu compte que radmlnlstratlon 
du test infoimatlsp in groupe n'est pr^s aussl automatlsee qu'on 
pourralt le crolre. A qi-el'^ues rtorlses. le surveillant a du Intervenlr 
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pour aider des etudiants qui eprouvaient des problemes. Dans 
certains cas, des etudiants, habitues a d'autres logiciels, etaient 
deroutes par le fait que la touche <Retum> soit inoperante. Dans 
d'autres cas, plus serieux, les etudiants maintenaient le doigt 
appuye sur une touche provoquant ainsi remballement du pro- 
gramme. Enfin, bien qu on ait cherche dans la programmatlon a 
minimiser Tutilisation du clavier, Tetudiant doit inevitablement 
s'identifier; or, certains ont eu de la difflculte a taper leur 
nom. Cela met en evidence une lacune fondamentale de la techno- 
logie actuelle: tant que le clavier restera le principal moyen par 
lequel on transmet Tinfonnation a la machine, certains etudiants 
seront defavorlses et les applications pedagoglques de Tordinateur 
seront fort limitees. 

Enfin, il faut noter que lors des deux experimentations 
menees dans un laboratoire de mlcro-informatique, un appareil a 
fait defaut alors qu'un etudiant y etait installe. De pareilles defail- 
lances sont des aleas avec lesquels il faut composer. Ainsi compte 
tenu a la fois des defaillances qui peuvent surv^enir et des problemes 
que peuvent connaitre les etudiants, il est difficile d'imaginer une 
administration en groupe sans surveillance. En utilisant un seul 
appareil, on peut esperer se dispenser de surveillance mals il reste 
qu'une personne devrait etre disponible au cas ou Tetudiant auralt 
besoin d'aide. 



6.3.2 Les ressources et les besoins 

L'administration individuelle est sans doute la formule la 
plus attrayante pour les etablissements interesses au testing 
adaptatif. En effet, peu de programmes de langue seconde 
peuvent compter, parmi leurs ressources, Tacces facile a un 
laboratoire de micro-informatique. Le programme CAPTaurait done 
sa place dans les programmes ou les tests de classement sont 
administres individuellement a differents moments. Par contre, 
lorsque qu'un grand nombre d*etudiants doivent etre tries, 
radministration en groupe d'une version -papier-crayon* est 
nettement plus avantageuse. 
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Par alUeurs. 11 faut se demander si ce test, tel que concu pour 
satlsfalre les exigences de la presente recherche, repond aux besolns 
des etabllssements post-secondalrcs. On peut dlstinguer deux 
orientations tout a fait opposees parml les programmes qui s'adrcs- 
sent a la populaUon dc niveau post-secondalre. D'une part, un 
certain nombre s'lnspirent des approches tradiUonnelles et rlsquent 
dc ne pas trouver leur compte dans un test qui ne mesure pas 
speclflquement les elements grammaUcaux. On remarque de toute 
fagon que ces programmes tendent a regrouper les etudlants salon 
une sequence de cours pre-determinee ou en foncUon du nombre 
d'annees d'etude de la langue. D'autre part, des programmes mettent 
I'accent sur la competence a I'oral et pourraient reprocher aux 
instruments que nous avons elabores de ne pas comporter de 
composante orale. Blen que ces Instruments mesurent la maitrise 
generale. 11 est souhaitable. dans la perpecUve d'un enselgnement de 
I'oral. de pouvolr aussl mesurer plus speclflquement la capaclte de 
comprendre et de s'exprimer oralement. AJnsl. si le test devait etre 
uUlise par ces etabllssements. 11 faudrait y ajouter un sous-test de 
comprehension audiUve et/ou le completer par une entrevue. 

Enfin. 11 ne faut pas oublier qu'apres avoir utilise regulie- 
rement les deux memes formes d'un test .papier-crayon, ou un test 
adaptatif construit a parUr d'une banque comprenant peu d'items. 
on devra songer a creer des formes paralleles supplementalres ou a 
elargir la banque. Etant donne les couts associes a une teUe 
entreprlse. U n'est pas certain que les programmes de langue 
seconde. tradlUonnellement conslderes comme les parents pauvres 
des etabllssements post-secondalres. pulssent flnancer I'elaboraUon 
de tests semblables a ceux que nous avons mis au point. En ce sens, 
le testing adaptatif. comme toute autre approche exploltant une 
banqu^ d'items pre-callbres. ne se prete pas au testing sur une 
echelle redulte. 
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La presente recherche s'est deroulee en trois phases. Dans 
un premier temps, il nous a fallu preclser notre cadre theorique. 
D'une part, nous esUmions qu'un test de classement devait evaluer 
une maitrlse generale de la langue et qu'un tel attribut etalt 
effecUvemcnt mesurable. D'autrc part, compte tenu des recherches 
actuelles dans le domaine docimologlque, la theorie du trait 
latent nous paralssait le mleux convenlr a notre objectif, Dans un 
deuxieme temps, 11 nous a fallu mettre au point les instruments. 
Nous avons elabore une version experimentale qui a par la suite 
servl a creer deux versions conventlonnelles paralleles, Les items 
retenus ont egalement ete Integres dans les deux versions adapta- 
tives que nous avons par la suite programmees. 

Ce n*est que dans un troisieme temps que nous avons pu 
comparer les deux types de tests: avec et sans ordinateur. Du point 
de vue theorique, il nous semblait que Temploi d'un test informatise 
adaptatif permettrait d'obtenir des tests plus courts mais aussl 
precis, mleux adc.;; > au niveau de chaque etudiant et simples a 
administrer. Par ct. e, nous avlons des reserves quant au contenu 
et a la nature des items, De plus, nous craignlons des effets 
psychologiques negatifs et nous nous Interrogions sur Taspect 
pratique, A Taide de donnees experimentales, nous avons pu 
confimier que le test adaptatif par stratification etait generalement 
tout aussi fiable tout en etant deux fois plus court, Cependant, il ne 
nous apparaissait pas possible de comparer les resultats obtenus 
avec des procedures d'administration differentes car les modes de 
correction ne sont pas identiques, Au plan psycho logique, nous 
avons observe que Tordinateur ne produisait pas les effets negatifs 
que nous anticipions. II nous est aussi apparu que la notion de 
dlfficulte sur laquelle repose le testing adaptatif, doit etre revue 
parce que la perception de la dilTiculte feralt intervenir des juge- 
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ments globaux qui depassent les caracteristlques statistiques 
inciividueUes des items. Les resultats de rexperimentation reveient 
la nature exploratoire de la presente recherche pulsque certains 
aspects devront etre approfondis et pourraient faire Tobjet d*etudes 
ulterleures. 

Considerant les forces et les falblesses des deux types 
d'admlnistraUon que nous avons compares, U nous semble que le 
test adaptatif peut etre une alternative interessante dans Toptlque 
de radministraUon individueUe d un test de classement. Une version 
convenUonneUe est certainement plus appro price pour des adminis- 
trations en groupe. De plus, nous doutons qu'une procedure 
adaptatlve puisse etre appliquee dans le cadre d*un test diagnostique 
ou la division du contenu impUque la multidimensionalite. Nous 
doutons egalement qu*une procedure adaptative puisse senrir dans 
le cadre d'un test de certification ou U est essentiel de viser 
Fauthenticite des taches soumises au candidat. Enfin, etant donne 
le contenu du test, celui-ci risque de ne pas sufBre pour mener a 
une decision juste. Par exemple. s'il doit servir a classer un etudiant 
a Tinterieur d*une sequence de cours de conversation, il seralt 
souhaitable que le test soit complete par une entrevue. 

Que les instruments que nous avons elabores mesurent 
effectivement la maitrise generale sans pouvoir touj ours mener a une 
decision de classement Juste s*expUque certes par la multiplicite des 
approches et des programmes d*enseignement. Mais cela est aussi 
attribuable aux compromis que nous avons du faire pour les fins de 
rexperimentation. Afm de comparer les procedures d'administration, 
nous avons congu des items qui pouvaient etr^ aisement transposes 
a rordinateur. Cette situation traduit, nous semble-t-il le paradoxe 
du testing adaptatif. D'une part, Uutilisation de I'ordinateur offre de 
grandes possibilites: graphiques, animation, couleur... Voila. pour 
reprendre Texpression de Canale (1985) la «promesse» du testing 
adaptatif. D*autre part, les exigences de la theorie du trait latent 
sont telles qu*on dolt souvent renoncer a exploiter ces possibilites. 
Par exemple, des consideraUons pratiques nous forcent genera- 
lement a calibrer a partir d'une version .papler-crayon». Plus encore, 
la regie d unidlmensionallte impose a cette version .papler-crayon» 
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un cadre plus etroit que celui qui regit les tests conventionnels. C'est 
renvers de la medaille, la «menace» du testing adaptatif selon 
Canale. II faut cependant esperer que des travaux en docimologie 
tels que ceux dc Wilcox (1981) de Reckcase (1983) ou de Traub et 
Lam (1985) permettront d'assouplir ou de deborder le cadre de la 
theorie du trait latent. 

Faisant le point sur Tutilisation de Tordinateur en evaluation 
de la langue seconde. Alderson (1988) commet une omission 
importante en eCfleurant a peine le concept de testing adaptatif. II 
n'en reste pas moins que, comme lui. nous croyons qu'il faut 
transgresser les llmites de cette approche pour innover dans le 
domaine et proposer de nouvelles formes d'activites evaluatives qui 
exploitent les possibilites de la machine et integrent les nouvelles 
approches de la didactique des langues secondes. Enfin, il ne faut 
pas oublier que si les progres technologiques en informatique sont 
fascinants, Tordinateur reste dans le domaine de Tenseignement des 
langues un outil relativement rudimentaire qui ne doit pas nous 
imposer ses llmites. Comme le signale Churchill (1986:20): «A force 
de vouloir appliquer Tordinateur partout, on fait ce qu'on peut plutot 
que ce que Ton devrait». 
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